pythonでlistを(なるべく)均等分割するスニペット

魚類というのは世界で20000種が報告されているんだそうですが、もちろん実際にはこれより遥かに多くの種が存在すると思われているそうです。食べられる魚だけでも一体何種いるんでしょう。

さて、Pythonでリストをあるk個のリストへなるべく均等に分割したい…というようなことが頻繁ではないけどたまーに欲しくなって、その都度何分かかけて書いてる(でときどきバグ作り込む)気がするのでスニペットとしてメモ。

やりたいこと。

 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

…というような長さ12の配列を5分割する。

[ [0, 1], [2, 3], [4, 5, 6], [7, 8], [9, 10, 11] ]

何のことはありません。

def split_array(ar, n_group):
    for i_chunk in range(n_group):
        yield ar[i_chunk * len(ar) // n_group:(i_chunk + 1) * len(ar) // n_group]

Python2なら割り算のところは//でなく/でおk。

リストを受け取ればリストを返すし、rangeを受け取ればrangeを返します。

> [list(r) for r in split_array(range(12), 5)]
[ [0, 1], [2, 3], [4, 5, 6], [7, 8], [9, 10, 11] ]

1982798万番煎じぐらいだとおもう。

MacにRMagickが入らなくてつらい人へ

大型淡水魚のピラルクーはとても特徴的な大きな鱗をもち、その硬さもあって、靴べらなどに利用されることさえあるのだそうです。

さて、Mac(El Capitan)にGemでRMagickを入れようとしたとき、

% gem install rmagick

こんなエラーで死にました。

Gem::Ext::BuildError: ERROR: Failed to build gem native extension.

    /Users/hogehoge/.rbenv/versions/2.2.0/bin/ruby -r ./siteconf20170218-46131-rbo6q5.rb extconf.rb
checking for clang... yes
checking for Magick-config... no
checking for pkg-config... yes
checking for outdated ImageMagick version (<= 6.4.9)... no
checking for Ruby version >= 1.8.5... yes
checking for stdint.h... yes
checking for sys/types.h... yes
checking for wand/MagickWand.h... no

Can't install RMagick 2.15.4. Can't find MagickWand.h.
 *** extconf.rb failed ***
Could not create Makefile due to some reason, probably lack of necessary
libraries and/or headers.  Check the mkmf.log file for more details.  You may
need configuration options.

Provided configuration options:
        --with-opt-dir
        --without-opt-dir
        --with-opt-include
        --without-opt-include=${opt-dir}/include
        --with-opt-lib
        --without-opt-lib=${opt-dir}/lib
        --with-make-prog
        --without-make-prog
        --srcdir=.
        --curdir
        --ruby=/Users/hogehoge/.rbenv/versions/2.2.0/bin/$(RUBY_BASE_NAME)

extconf failed, exit code 1

Gem files will remain installed in /Users/hogehoge/.rbenv/versions/2.2.0/lib/ruby/gems/2.2.0/gems/rmagick-2.15.4 for inspection.
Results logged to /Users/hogehoge/.rbenv/versions/2.2.0/lib/ruby/gems/2.2.0/extensions/x86_64-darwin-15/2.2.0-static/rmagick-2.15.4/gem_make.out

An error occurred while installing rmagick (2.15.4), and Bundler cannot continue.
Make sure that `gem install rmagick -v '2.15.4'` succeeds before bundling.

基本的にはこちらで書かれているような、pkg-config周りをちゃんとするようというようなのがよく引っかかります。
Mac OS X環境にrmagickをインストールする決定版 – Qiita

僕の場合はまた違う現象でした。
結論から言うと、新しいImageMagick7.xがシステムに入ってるとダメで、6.x系列を入れる必要がありました

% brew uninstall --ignore-dependencies --force imagemagick
% brew install imagemagick@6 && brew link imagemagick@6 --force
% gem install rmagick

この答えは、こちらのStackOverflowで発見しました。
ruby – RMagick installation: Can't find MagickWand.h – Stack Overflow

こういうので時間を溶かすのがいちばんつらいですね。

UbuntuでOpenCVをlibjpeg-turboつきでビルドする

都道府県別の一人あたり魚介類消費量では、青森県がトップで、以下秋田、鳥取、新潟、富山と日本海側の県が続きます。島国・沖縄が意外にも最下位です。

さて、OpenCVで画像をロードするのを速くしたくて、JPEGについてはlibjpeg-turboというのが使えることを知りました。
libjpeg-turboはlibjpegをSIMDなどによって高速化したものでAPIレベルの互換性を保っています。
条件が良ければデコードが数倍速くなるということで、これをOpenCVに組み込んでビルドする方法をメモ。

Continue reading

YouTube Data API V3とgoogle-api-ruby-client gemでYouTube動画検索

この度2017年1月1日を迎えました。神戸港開港150年であり、神戸港に建つ巨大な魚のオブジェ「フィッシュ・ダンス」が公開されて30年でもあります。神戸港には縁もゆかりもありません。

さて、自作サービス(Rails製)の裏側においてYouTubeでの動画検索をしたいと考えていて、YouTube Data API(V3)およびそれを叩くGoogle製のgoogle-api-ruby-client gemを使うことにしました。
しかしながらこのGemは2016年初頭に出た0.9によって大きな変更が入り、公式のものを含めネット上で閲覧可能なサンプルのほとんどが参考にならない状況になっています。
自分でも少し苦労したので、かんたんにメモ。

情報は2017年1月1日JST現在、Gemは0.9.20です。

Continue reading

Karabinarのキー置換定義に独自の例外アプリ指定を設定する

世界一標高の高い水族館は長野県茅野市にある蓼科アミューズメント水族館だそうです。一度行ったことがありますが、オススメです。内陸県とあって淡水魚中心に扱っていて、また北八ヶ岳ロープウェイのすぐ下だったりするので、夏の避暑には最高です。

さて、ぼくは普段はLinuxを使っていて、そこに数年前からMacを併用して使うようになったため、Commandキーを中心としたショートカットキーの違いが地味にストレスになります。
そこで、Macでキー入力の解釈を強制的に上書きするツールKarabinarを使っていました。

具体的には一例として、MacでもLinux/Windowsと同じくCtrl+C/X/Vでそれぞれコピー・カット・ペーストをできるようにしたかったのです。
この場合、Karabinarで標準で用意されている「Use PC Style Copy/Paste」を有効にすればOKです。

karabinar_pc_style_copy_paste

しかしながら、私は例えばコーディングなどにPyCharmやRubyMineをvimキーバインドにして使っていて、このときショートカットキー設定がコンフリクトし、Karabinarが優先されることになります。
(具体的には例えばvimでCtrl+vは矩形編集に使うのですが、KarabinarによってOption+Vに置換され結局ペーストが行われます。)
したがって、普段はCtrl+C/X/VをコピペにつかうんだけどPyCharmがアクティブウィンドウになっているときだけそれをナシにする…というような設定をKarabinarに対して行いました。
ここまででやっとタイトルについて説明できた

Continue reading

Mac+rbenvでconfigure: error: something wrong with LDFLAGS=”…”とか言われた時のいち解法

今日は多摩川花火大会をやっていまして、今まさに自室の窓の外から花火が見え音が聞こえる中こんなブログ記事を書いています。ダイナマイト漁で捕獲でもされている気分です。

さて、El Capitanでrbenvを使っていて、rbenv installをしようとしたときこんなかんじのエラーが出てちょっとハマりました。

% rbenv install 2.2.3
Downloading ruby-2.2.3.tar.bz2...
 -> https://cache.ruby-lang.org/pub/ruby/2.2/ruby-2.2.3.tar.bz2
Installing ruby-2.2.3...

BUILD FAILED (OS X 10.11.6 using ruby-build 20160602-31-gf085feb)
...
checking whether LDFLAGS is valid... no
configure: error: something wrong with LDFLAGS="-L/Users/(myname)/.rbenv/versions/2.2.3/lib "
make: *** No targets specified and no makefile found.  Stop.

このエラーはいろんな状況で起こるようです。autoconfのログを見てもよくわかりませんでした。
ググってみると、やれrbenvプラグインのruby-buildが古いだの、やれ特定バージョンのrubyで起こるだの、gccを消せだの、brew doctorしろだの、手動ビルドしろだの…などなど、さまざまな原因でこの現象が起こるようですが、
僕の場合はLIBRARY_PATH環境変数に書いてあったディレクトリが実在しなかったことが原因でした。

つまり、

LIBRARY_PATH=/usr/local/lib:/usr/lib:/lib

だったのですが、僕の使用するEl Capitan機に/libというディレクトリは存在しなくて、それが結局rbenv installのエラーを引き起こしていました。
なので、環境変数から/libを除くか、/libをmkdirすると、rbenvのビルドは死ななくなりました。
エラーメッセージ自体からはそのことを直接は読み取れなかったので、ハマりました。

ご参考までに。

Railsログ中の”Rendered xxxx.html.erb”を静かにさせたかった

お魚の可食部の重量に占める割合というのは、もちろん種類によって変わってくるのですが、しらすなどではもちろん100%、一方でスズキなどでは40%程度と低いようです。ただしらすは稚魚ですので、成魚と比べるのは厳しい判定かも。
さて、Rails(Rack)がGETリクエストひとつに対して吐いてくれるアクセスログは、下記のような雰囲気になります。
このうち、xxxx.html.erbをレンダリングしたよ!という情報は特に本番ではあまり必要でないことが(自分の状況では)多いので、これを静かにしてしまいたくなりました。

[2016-08-02T15:58:51](pid: 23067) INFO  -- Started GET "/" for 127.0.0.1 at 2016-08-02 15:58:51 +0900
[2016-08-02T15:58:51](pid: 23067) INFO  -- Processing by HomeController#index as HTML
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered home/_user_objects.html.erb (5.9ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered home/index.html.erb within layouts/application (11.4ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_navbar.html.erb (173.5ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (0.3ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (1.2ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (0.9ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (0.8ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_image_box.html.erb (1.0ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_header.html.erb (175.5ms)
[2016-08-02T15:58:52](pid: 23067) INFO  --   Rendered application/_footer.html.erb (0.5ms)
[2016-08-02T15:58:52](pid: 23067) INFO  -- Completed 200 OK in 650ms (Views: 52.1ms | ActiveRecord: 10.0ms)

コチョナナバ: railsの部分テンプレートのログ出力を出さなくする
Hide rendering of partials from rails logs – Stack Overflow
このあたりを参考にして、

# config/environments/production.rb
MyApplication::Application.configure do
  ...
  # Not to show logs like Rendered xxxx.html.erb
  config.action_view.logger = nil
  ...
end

のように設定すると、このrenderingのログだけがいいかんじに静かになってくれます。

[2016-08-03T16:44:20](pid: 5973) INFO  -- Started GET "/" for 127.0.0.1 at 2016-08-03 16:44:20 +0900
[2016-08-03T16:44:20](pid: 5973) INFO  -- Processing by HomeController#index as HTML
[2016-08-03T16:44:21](pid: 5973) INFO  -- Completed 200 OK in 724ms (Views: 53.9ms | ActiveRecord: 9.4ms)

大変Informativeでよろしい。
以上、最初から最後まで完全に備忘録でした。

公開Google CalendarからRuby+Google APIでイベントを取得

いよいよ5月も終わり季節は夏にという時期で、お魚的には鮎や鯵などが旬を迎えるという頃合いになっています。今の時期に魚や野菜を食べて夏バテに備えたいものです。

さて、Google Calendarからイベントを自動で取ってきたいということがあったので、Rubyでやってみました。

(Calendarにかぎらず)Google各種サービスのAPIは公式のGemが公開されており、これを使うのが最も簡単です。
Ruby Quickstart | Google Calendar API | Google Developers
Class: Google::Apis::CalendarV3::Calendar — Documentation for google/google-api-ruby-client (master)

さらに、各ブログなどで既にGoogle Calendar API (v3)を使う方法についてはよくまとまっています。
RubyでGoogleカレンダーの情報を引き抜いてみる – 鶏頭のプログラム
rubyにてgoogleカレンダーの情報を取得する – Qiita

この辺りの情報は、基本的に自分の(非公開な)カレンダーを取ってくるものですが、今回僕がやりたいことは、「他人が公開カレンダーのイベントの情報を持ってくる」ことで、
例えば僕個人の予定でなく人力アジャイルイベントカレンダー powered by 名古屋アジャイル勉強会にあるイベントをAPI経由で取ってくる、というようなことをやろうとしています。

上記の参考資料はいずれも、自分のカレンダーにアクセスするためのもので、そのためにOAuthなどのプロセスが必要となっていますが、公開されているカレンダーのイベントを取得するのはもう少しシンプルです。

ということで、ここからはその方法。

Continue reading

PoltergeistのURL Blacklisting/Whitelistingを活用してAjaxスクレイピングを速くする

よくお魚の「脂ののりが良い」といいますが、実際例えば体脂肪率という形で計測するとどうなるのでしょうか。実はそれを測定するためにフィッシュアナライザ™という製品があり、人間用の体脂肪率計と同じ仕組みで非侵襲的な計測が可能なんだそうです。アジなどでは10%とかいうオーダーの数字とのことで、意外とスリム。

さて、Rubyを使ってWebスクレイピングをするときは、個人的にはNokogiriをよく使っています。
通常はNet::HTTPでとってきたHTMLをそのままNokogiriにぶち込めばOKなのですが、非同期での描画を行うAjaxのサイトの解析はそのままではできません。
そこで、PhantomJSのRubyフロントエンドであるPoltergeistをドライバとしてCapybaraを組み合わせると、深く考えることなく静的ページと同じ感覚で解析ができてしまいます。要は、見えないところでまるっとブラウザを動かしてしまって、DOMから仮想的なHTMLを生成させちゃってNokogiriにぶち込む…というようなアプローチです。

require 'nokogiri'
require 'capybara'
require 'capybara/poltergeist'

def wait_for_ajax(session)
  # https://robots.thoughtbot.com/automatically-wait-for-ajax-with-capybara
  Timeout.timeout(Capybara.default_wait_time) do
    return if session.evaluate_script('jQuery.active').blank?
    loop until session.evaluate_script('jQuery.active').zero?
  end
end

def access(url)
  Capybara.register_driver(:poltergeist) do |app|
    Capybara::Poltergeist::Driver.new(app, {
      js_errors: false  #JSに問題があったとき例外を吐かせない。スクレイピングの際は常にfalseがいいです。
    })
  end
  s = Capybara::Session.new(:poltergeist)
  s.visit(url)
  wait_for_ajax(s)
  s
end

def get_html(url)
  s = access(url)
  html = s.html
  s.reset!
  s.driver.quit
  html
end

#あとは普通にNokogiriにぶっこんでゴリゴリやってくだけ!
page = Nokogiri::HTML.parse(get_html(url))
page.css('body')

ちなみに、Capybara::Sessionのインスタンス(accessメソッドの戻り値)に対して、ちょうどfeature specで書くようなマッチャを使ってページに対する操作ができるので、例えば「ここをクリックすると出てくる情報を解析したい」という作業も簡単にできます。

s = access(url)
s.click('Submit')
s.find('.text')  #findを呼ぶとマッチする要素が現れるまで再描画を(デフォルトで2秒間)待ってくれます。
s.html #これをNokogiriにぶち込めばOK

後ろでブラウザがまるごと動いていることの弊害と言ってはあれですが、スクレイピングにあたっては必要ではない情報も非同期でゴリゴリ取ってくることになり、負荷や時間などが増大します。
ということで、そういった必要でない情報は取ってこないようにして少しでも時間と相手サーバの負荷を低減する方法について。

Continue reading

Sidekiq::Schedulerで動的にタスクをぶち込む

お魚の中でもメバルやタチウオなどは夜行性のものとして有名で、特にタチウオなどは昼間沖の深めにいて夜には岸辺の浅いところにくるなど、かなり規則的なパターンで活動するのだそうです。

さて、rubyで野良アプリ書くときバッチ処理エンジンにはSidekiqを好んで使っています。
Sidekiqには日次処理などを簡単に行うため(*1)にSidekiq::Schedulerという拡張gemがあり(*2)、任意の定義済みワーカを例えばcronライクに繰り返し実行することができます。
基本的には各ワーカの実行条件やパラメータをYAMLの形で全て静的に記述し起動時に読み込むというスタイルなのですが、時には動的にワーカをスケジュールに突っ込みたいことがあります。

Sidekiq::Schedulerはもちろんそれもサポートしています。
ただmoove-it/sidekiq-schedulerの説明がいまいちだったので、備忘録も兼ねてまとめました(*3)。

Continue reading