tqdmをムリヤリprocess safeっぽくするdirty hack

生物界で最大の目(光を検知する器官)を持っているのはダイオウイカおよびダイオウホウズキイカと言われ、その大きさは30〜35cmほどにもなるのだそうです。

さて、世界70億人のPythonプログラマが手放せないのが、tqdmというプログレスバーを簡単に表示できるようにしてくれるライブラリです。
しかしながらtqdmは(当然と言えば当然ですが)複数のプロセスから1つのプログレスバーを管理することができるような設計にはなっていません。
たとえば高速化のためにmultiprocessingを用いて並列処理をしながらプログレスバーを出したいとき、tqdmはそのままでは使えないことになります。

例えば、下記のようなコードで単にtqdmのインスタンスを子プロセスに渡して中でupdateをすると…

import tqdm
import multiprocessing

def worker(pbar):
    pbar.update()

ar = [i for i in range(100)]
with tqdm.tqdm(ar) as pbar:
    jobs = []
    for t in ar:
        job = multiprocessing.Process(target=worker, args=(pbar,))
        job.start()
        jobs.append(job)
    for job in jobs:
        job.join()

実行結果はこんな感じ。

% python usage.py
  1%|▉                                                                                                 | 1/100 [00:00<00:25,  3.89it/s]

こんなふうに、100%まで行ってくれません。
端的に説明すると、100個forkされた内部カウント0の状態をそれぞれ+1するのが100回走るだけ、だからです。

じゃあ内部カウントが常によろしく増えるために、内部カウントを無視して共有メモリで常に正しくカウントしてればいいよね、っていう単純な発想による汚いハックをしてみました。

Continue reading

大量のサーバに同じファイル(でかい)を効率的にコピーする

インド洋では、夏頃にイワシの大群が押し寄せるサーディンラン現象というのがあるのだそうです。その個体数、にわかには信じがたいですが億のオーダーにもなるとのことです。すげーな!

さて、あるサーバ1台が数百GBにもなる巨大なファイル(群)を持っているとします。
このファイル群を、そのサーバに接続された他の複数(大量)のサーバのローカルディスクにコピーしたいです。
以後これを便宜的にbcast cpと呼ぶことにします。

rsyncを1台ずつ回すのが頭悪い方法なのは明らか。当然NFSなどを立てて共有するというのも本質的にはそれと同じ。
同僚のiwiwiさんがちょうど集団通信アルゴリズムの話をしていたのを聞いて、それを活用して効率的にファイルをバラまくようなアドホックなスクリプトを書いて、ときどき使えそうなのでまとめておきました。

「やってみた」ぐらいの話なのでガチ勢の方たちにはƱ”-ʓ飲んで寝ていてほしいです。

Continue reading

pythonでlistを(なるべく)均等分割するスニペット

魚類というのは世界で20000種が報告されているんだそうですが、もちろん実際にはこれより遥かに多くの種が存在すると思われているそうです。食べられる魚だけでも一体何種いるんでしょう。

さて、Pythonでリストをあるk個のリストへなるべく均等に分割したい…というようなことが頻繁ではないけどたまーに欲しくなって、その都度何分かかけて書いてる(でときどきバグ作り込む)気がするのでスニペットとしてメモ。

やりたいこと。

 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

…というような長さ12の配列を5分割する。

[ [0, 1], [2, 3], [4, 5, 6], [7, 8], [9, 10, 11] ]

何のことはありません。

def split_array(ar, n_group):
    for i_chunk in range(n_group):
        yield ar[i_chunk * len(ar) // n_group:(i_chunk + 1) * len(ar) // n_group]

Python2なら割り算のところは//でなく/でおk。

リストを受け取ればリストを返すし、rangeを受け取ればrangeを返します。

> [list(r) for r in split_array(range(12), 5)]
[ [0, 1], [2, 3], [4, 5, 6], [7, 8], [9, 10, 11] ]

1982798万番煎じぐらいだとおもう。

MacにRMagickが入らなくてつらい人へ

大型淡水魚のピラルクーはとても特徴的な大きな鱗をもち、その硬さもあって、靴べらなどに利用されることさえあるのだそうです。

さて、Mac(El Capitan)にGemでRMagickを入れようとしたとき、

% gem install rmagick

こんなエラーで死にました。

Gem::Ext::BuildError: ERROR: Failed to build gem native extension.

    /Users/hogehoge/.rbenv/versions/2.2.0/bin/ruby -r ./siteconf20170218-46131-rbo6q5.rb extconf.rb
checking for clang... yes
checking for Magick-config... no
checking for pkg-config... yes
checking for outdated ImageMagick version (<= 6.4.9)... no
checking for Ruby version >= 1.8.5... yes
checking for stdint.h... yes
checking for sys/types.h... yes
checking for wand/MagickWand.h... no

Can't install RMagick 2.15.4. Can't find MagickWand.h.
 *** extconf.rb failed ***
Could not create Makefile due to some reason, probably lack of necessary
libraries and/or headers.  Check the mkmf.log file for more details.  You may
need configuration options.

Provided configuration options:
        --with-opt-dir
        --without-opt-dir
        --with-opt-include
        --without-opt-include=${opt-dir}/include
        --with-opt-lib
        --without-opt-lib=${opt-dir}/lib
        --with-make-prog
        --without-make-prog
        --srcdir=.
        --curdir
        --ruby=/Users/hogehoge/.rbenv/versions/2.2.0/bin/$(RUBY_BASE_NAME)

extconf failed, exit code 1

Gem files will remain installed in /Users/hogehoge/.rbenv/versions/2.2.0/lib/ruby/gems/2.2.0/gems/rmagick-2.15.4 for inspection.
Results logged to /Users/hogehoge/.rbenv/versions/2.2.0/lib/ruby/gems/2.2.0/extensions/x86_64-darwin-15/2.2.0-static/rmagick-2.15.4/gem_make.out

An error occurred while installing rmagick (2.15.4), and Bundler cannot continue.
Make sure that `gem install rmagick -v '2.15.4'` succeeds before bundling.

基本的にはこちらで書かれているような、pkg-config周りをちゃんとするようというようなのがよく引っかかります。
Mac OS X環境にrmagickをインストールする決定版 – Qiita

僕の場合はまた違う現象でした。
結論から言うと、新しいImageMagick7.xがシステムに入ってるとダメで、6.x系列を入れる必要がありました

% brew uninstall --ignore-dependencies --force imagemagick
% brew install imagemagick@6 && brew link imagemagick@6 --force
% gem install rmagick

この答えは、こちらのStackOverflowで発見しました。
ruby – RMagick installation: Can't find MagickWand.h – Stack Overflow

こういうので時間を溶かすのがいちばんつらいですね。

UbuntuでOpenCVをlibjpeg-turboつきでビルドする

都道府県別の一人あたり魚介類消費量では、青森県がトップで、以下秋田、鳥取、新潟、富山と日本海側の県が続きます。島国・沖縄が意外にも最下位です。

さて、OpenCVで画像をロードするのを速くしたくて、JPEGについてはlibjpeg-turboというのが使えることを知りました。
libjpeg-turboはlibjpegをSIMDなどによって高速化したものでAPIレベルの互換性を保っています。
条件が良ければデコードが数倍速くなるということで、これをOpenCVに組み込んでビルドする方法をメモ。

Continue reading

YouTube Data API V3とgoogle-api-ruby-client gemでYouTube動画検索

この度2017年1月1日を迎えました。神戸港開港150年であり、神戸港に建つ巨大な魚のオブジェ「フィッシュ・ダンス」が公開されて30年でもあります。神戸港には縁もゆかりもありません。

さて、自作サービス(Rails製)の裏側においてYouTubeでの動画検索をしたいと考えていて、YouTube Data API(V3)およびそれを叩くGoogle製のgoogle-api-ruby-client gemを使うことにしました。
しかしながらこのGemは2016年初頭に出た0.9によって大きな変更が入り、公式のものを含めネット上で閲覧可能なサンプルのほとんどが参考にならない状況になっています。
自分でも少し苦労したので、かんたんにメモ。

情報は2017年1月1日JST現在、Gemは0.9.20です。

Continue reading

Karabinarのキー置換定義に独自の例外アプリ指定を設定する

世界一標高の高い水族館は長野県茅野市にある蓼科アミューズメント水族館だそうです。一度行ったことがありますが、オススメです。内陸県とあって淡水魚中心に扱っていて、また北八ヶ岳ロープウェイのすぐ下だったりするので、夏の避暑には最高です。

さて、ぼくは普段はLinuxを使っていて、そこに数年前からMacを併用して使うようになったため、Commandキーを中心としたショートカットキーの違いが地味にストレスになります。
そこで、Macでキー入力の解釈を強制的に上書きするツールKarabinarを使っていました。

具体的には一例として、MacでもLinux/Windowsと同じくCtrl+C/X/Vでそれぞれコピー・カット・ペーストをできるようにしたかったのです。
この場合、Karabinarで標準で用意されている「Use PC Style Copy/Paste」を有効にすればOKです。

karabinar_pc_style_copy_paste

しかしながら、私は例えばコーディングなどにPyCharmやRubyMineをvimキーバインドにして使っていて、このときショートカットキー設定がコンフリクトし、Karabinarが優先されることになります。
(具体的には例えばvimでCtrl+vは矩形編集に使うのですが、KarabinarによってOption+Vに置換され結局ペーストが行われます。)
したがって、普段はCtrl+C/X/VをコピペにつかうんだけどPyCharmがアクティブウィンドウになっているときだけそれをナシにする…というような設定をKarabinarに対して行いました。
ここまででやっとタイトルについて説明できた

Continue reading

Mac+rbenvでconfigure: error: something wrong with LDFLAGS=”…”とか言われた時のいち解法

今日は多摩川花火大会をやっていまして、今まさに自室の窓の外から花火が見え音が聞こえる中こんなブログ記事を書いています。ダイナマイト漁で捕獲でもされている気分です。

さて、El Capitanでrbenvを使っていて、rbenv installをしようとしたときこんなかんじのエラーが出てちょっとハマりました。

% rbenv install 2.2.3
Downloading ruby-2.2.3.tar.bz2...
 -> https://cache.ruby-lang.org/pub/ruby/2.2/ruby-2.2.3.tar.bz2
Installing ruby-2.2.3...

BUILD FAILED (OS X 10.11.6 using ruby-build 20160602-31-gf085feb)
...
checking whether LDFLAGS is valid... no
configure: error: something wrong with LDFLAGS="-L/Users/(myname)/.rbenv/versions/2.2.3/lib "
make: *** No targets specified and no makefile found.  Stop.

このエラーはいろんな状況で起こるようです。autoconfのログを見てもよくわかりませんでした。
ググってみると、やれrbenvプラグインのruby-buildが古いだの、やれ特定バージョンのrubyで起こるだの、gccを消せだの、brew doctorしろだの、手動ビルドしろだの…などなど、さまざまな原因でこの現象が起こるようですが、
僕の場合はLIBRARY_PATH環境変数に書いてあったディレクトリが実在しなかったことが原因でした。

つまり、

LIBRARY_PATH=/usr/local/lib:/usr/lib:/lib

だったのですが、僕の使用するEl Capitan機に/libというディレクトリは存在しなくて、それが結局rbenv installのエラーを引き起こしていました。
なので、環境変数から/libを除くか、/libをmkdirすると、rbenvのビルドは死ななくなりました。
エラーメッセージ自体からはそのことを直接は読み取れなかったので、ハマりました。

ご参考までに。

【灰色魔術】Rails.loggerと独自Loggerのログレベルを同じにさせたかった

お魚といえば安いものから高いものまでピンきりですが、上はどこまでいくんでしょうか。魚ですよ!値段順で調べるで見ると、マグロなどが高いのはやはり用意に想像がつくところですが、キログラム単価で見た時には特にウニやかずのこなど量が取れないものがぶっちぎってるんですね。

さて、RailsのLoggerでは、ログレベル、すなわちどのレベルのログまでがログファイルに保存されるかを指定することができます。

Rails.logger.level = :info

この辺りは既に十分いろんなわかりやすい説明があるのでそのあたりをご参照いただくとして。
Debugging Rails Applications — Ruby on Rails Guides

一方で、独自ライブラリ等でRailsと独立のロガーを持っている場合、すなわちRails.loggerと別にLoggerのインスタンスを持っていて、そいつのログレベルを設定するときには、小文字シンボル:infoや:warnでは設定できません。
Loggerクラスに定義されている定数Logger::INFOやLogger::WARNを指定する必要があります。

$logger = Logger.new(STDOUT)
$logger.level = Logger::INFO

では、Railsでアプリを書いていてなおかつそのログレベルを環境変数等で指定可能にしたいが、その際にそういった独自Loggerのログレベルも一致させたい場合はどうすれば。
ちょっと何を言っているかわかりにくいでしょうが、下記のコードのようなことです。

log_level = (ENV['LOG_LEVEL'] || :info).to_sym
Rails.logger.level = log_level.downcase
$logger = Logger.new
$logger.level = Logger.const_get(log_level.upcase)

Rails.logger.levelにつっこむシンボルを使って強引にLoggerクラスの定数をRubyのClassに実装されているconst_getを使って動的にひっぱってくる…というような方法をとっています。
黒魔術的というほどではないですが少し灰色なかんじ。

このようにすれば、Railsのloggerのログレベルと独自Loggerのログレベルを一度で同時に指定できるようになります。
例えば

% LOG_LEVEL=Debug rails c
> Rails.logger.level
:debug
> $logger.level
0
# ↑ Logger::DEBUGの値

そもそもRails.logger.levelも:infoなどのシンボルではなくLogger::DEBUG(=0)など数値で指定することもできるのですが、
その場合もこの技法を活用すればユーザ指定時(シェルから%LOG_LEVEL=WARN rails cする場合)などでは文字列で書けるので便利と言えそうです。

指定されたLOG_LEVELの文字列自体が正しくない(例えば%LOG_LEVEL=DEBUUUG rails cなどと書いてしまった)場合も、const_getが例外を吐いてくれるというチェック機構が自動で働くことになるので、直接数値を指定可能にする(で数値の範囲を独自でチェックするロジックを書く)よりもラクで安全という面もあるかもしれません。

ログの収集や活用・分析などなど(fluentdとか)についてはまた備忘録がてらにまとめたいところもありますが、またの機会に。

Railsログ中の”Rendered xxxx.html.erb”を静かにさせたかった

お魚の可食部の重量に占める割合というのは、もちろん種類によって変わってくるのですが、しらすなどではもちろん100%、一方でスズキなどでは40%程度と低いようです。ただしらすは稚魚ですので、成魚と比べるのは厳しい判定かも。
さて、Rails(Rack)がGETリクエストひとつに対して吐いてくれるアクセスログは、下記のような雰囲気になります。
このうち、xxxx.html.erbをレンダリングしたよ!という情報は特に本番ではあまり必要でないことが(自分の状況では)多いので、これを静かにしてしまいたくなりました。

[2016-08-02T15:58:51](pid: 23067) INFO  -- Started GET "/" for 127.0.0.1 at 2016-08-02 15:58:51 +0900
[2016-08-02T15:58:51](pid: 23067) INFO  -- Processing by HomeController#index as HTML
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered home/_user_objects.html.erb (5.9ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered home/index.html.erb within layouts/application (11.4ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_navbar.html.erb (173.5ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (0.3ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (1.2ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (0.9ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (0.8ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (1.0ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_header.html.erb (175.5ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_footer.html.erb (0.5ms)
[2016-08-02T15:58:52](pid: 23067) INFO  -- Completed 200 OK in 650ms (Views: 52.1ms | ActiveRecord: 10.0ms)

コチョナナバ: railsの部分テンプレートのログ出力を出さなくする
Hide rendering of partials from rails logs – Stack Overflow
このあたりを参考にして、

# config/environments/production.rb
MyApplication::Application.configure do
  ...
  # Not to show logs like Rendered xxxx.html.erb
  config.action_view.logger = nil
  ...
end

のように設定すると、このrenderingのログだけがいいかんじに静かになってくれます。

[2016-08-03T16:44:20](pid: 5973) INFO  -- Started GET "/" for 127.0.0.1 at 2016-08-03 16:44:20 +0900
[2016-08-03T16:44:20](pid: 5973) INFO  -- Processing by HomeController#index as HTML
[2016-08-03T16:44:21](pid: 5973) INFO  -- Completed 200 OK in 724ms (Views: 53.9ms | ActiveRecord: 9.4ms)

大変Informativeでよろしい。
以上、最初から最後まで完全に備忘録でした。