第14回 画像の認識・理解シンポジウム(MIRU2011)を聴講してきました

石川県金沢市・金沢市文化ホールで2011年7月20日から22日にかけて開催されたMIRU2011へ参加し聴講してきました.
もともとMIRUで扱われる内容は結構幅広い分野に渡っていて,そのなかでも私自身の興味の強い分野の発表もたくさんあり,内容の上では当然,さらには多くの人と出会いいろんな話をすることができるなど,本当に得るものの多いシンポジウムでした.

私自身は前座イベントの全日本CV勉強会にも参加しましたが,そちらの報告については別の記事でがっつりしてるので,併せてご覧いただければと思います.

今日はいつものイベント参加記録のような雰囲気ではなく,ほんとにあっさりと感想を書いていくだけの記事になります.

特に興味が強かったセッション

興味が強かったもの…は山ほどあるんで,そのうちそこそこ理解できたもの,あわよくば実装もしてみたいと思ったものに絞ってまとめてみました.

『メモリ効率と安定性を向上させたLLAHによるカメラベース大規模実時間文書画像検索』(大阪府立大学)
  • 文書の画像から,もとの文書そのものを探す

    • 同じ内容の,とかそう言うのではない
    • 内容レベルで検索するのは画像屋さんの仕事じゃないですから
  • 分かち書き言語における単語の局所的な平面的位置関係を特徴量とする

    • 1単語を1領域として塗りつぶしてしまって,その重心を求める
    • 近傍の単語の重心との位置関係を注目点の特徴量とする
  • 最近傍探索ではなくいわば一致探索でよい

    • つまり,特徴量をハッシュで探索できる
    • あほみたいに速い
  • デモを見て

    • 数万〜数百万ページでもリアルタイムにイケる.

      • 1ページあたり数百から数千しか特徴量は出ないのにそれぞれはO(1)で対応付けできちゃうので,そりゃ速いわ
  • 簡単な応用もデモされてました

    • 画像中心にある単語は文書検索によって判別できる

      • 光学文字認識のようなことをしないでも
    • なので,その単語の日本語訳をネットで辞書引いて表示,なんてことも余裕
  • ちなみに,文書データはネットからクロールしたPDFを使ってるとのこと.
『安定・高精度なオンラインSfM』(東京工業大学)
  • SfM;Structure from Motion

    • 複数画像から,カメラのモーションと対象物の三次元形状を同時に推定する技術
    • 各画像間で,同一の点を写してる平面座標の対応がとれれば,ごにょごにょすれば空間座標(三次元座標)が求まる
    • 既存手法では,大量の画像を先に用意しといて,エイっと処理する
    • そうではなく,画像を随時追加していってどんどん新たに空間座標を求めていく手法を提案しデモした
  • 画像が追加されるたびに全体で処理し直せば,そりゃできる

    • もともとくっそ重たい処理がさらに重くなる
  • シーケンスとして入力されてるだろう,つまり,直前に入力された画像なら同じ物体を写してることだろう

    • それらをみつけて,その対だけで処理
    • あと,たぶん過去の画像の中にも同じ物体を写した画像があるかもしれない
    • 見た目を評価して探しだしたその画像とも同じように
  • デモみてみた

    • コンシューマ向けCPUでそこそこ動いてる
    • SfM=重い という印象だったので結構おおおおお
  • 全周カメラ画像に対する処理

    • Ladybugという超高価な全周カメラがありまして
    • それをラジコンにつけてトンネルの中を撮影
    • その動画に対して本手法を適用
    • (゚Д゚)ウマー
  • 全く違う時刻に撮影された同一点が同一点とみなされず,似た位置において複数の空間点として復元されることはないか?

    • ありません
  • 僕が死ぬまでにスマートフォンでなんか建物とかを動画撮影してリアルタイムに三次元形状を取得できるようになったらいいなと思ってるので,この技術すごい気になる.
『動きぶれや焦点ぼけがある画像からでも抽出できる拡張現実マーカの実現』(山梨大学)
  • ARでは基本的にはマーカを置いて画像認識によって空間平面を識別して三次元モデルを描画する
  • ブラーがかかったら…?

    • カメラまたは被写体の移動によるぶれ
    • 焦点ボケによるぶれ
    • 認識できなくなります
  • ブラーではなにが起こってるか?を考えたとき…

    • 要はブラーってのはローパスフィルタなんですねー
    • マーカに高周波成分を載せて,それに依存してしまうから,認識できなくなっちゃう
    • じゃあ,低周波成分のみでマーカを作っちゃいましょう
  • 「モノスペクトルマーカ」の提案

    • 単一周波数の正弦波です
    • 要は,ぼやーっと光ってるかんじ.
    • マーカの種類は色で認識
  • デモを見せていただきました

    • ARToolKitとは比べ物にならない追従性
    • 時間方向の平滑化は簡単なものをしているとのこと
    • 基本的に我々は安物のwebcamしか持ってないですから,こういうボケに強いってのは需要が大きそう
    • 計算時間がだいぶ長い

      • 話を聞いたかんじだと,実装にもけっこう問題があるかなと思ったw
『2値およびグリッド拘束に基づくQRコード向け超解像』(NEC)
  • 携帯電話のカメラなんかで取られたQRコード画像って低解像度で残念画質

    • 超解像処理しよう
    • ちょうど複数の画像も容易に得られるし
  • 普通に超解像するのが許されるのは小学生までよねー(キャハハ

    • 詳細は省くけど,一言で言うと増やした情報を減らしてることに
    • そんな無駄な!
    • この問題特有の拘束条件を取り入れることで直接的に行える!
  • 二値拘束

    • QRコード画像なんだから二値画像しかありえない
  • グリッド拘束

    • QRコード画像なんだから,QRコード上の1セルを最小単位としたグリッドにして考えるといい
  • このふたつの拘束を同時に考えた超解像

    • それぞれの拘束のみを考えてやった場合も実験したけどやっぱ両方だとすごくいい
  • 結構ボケてつぶれた画像でも,かなりの正答率が出ててびっくり.
  • QRコード自体は最低でも7%以下の誤りなら大丈夫なんだけど,デモの画像に関しては十分なかんじ
  • グリッドのサイズは固定なのに対して,QRコードのサイズはさまざま

    • これを自動認識できるようにすることが課題のひとつだとのことです
    • これがケータイに載る日が来たらいいですね
    • 個人的にはより高密度で大容量はQRコードの実現のキーとなるかなと思ってます.
『全探索を用いたロバストかつ拘束な3次元物体認識と追跡』(立命館大学)
  • 三次元センサが普及してきた
  • インダストリアルな分野とかで,三次元モデルを使うと素敵

    • 部品の三次元モデルの一覧があるとき,入力されたある三次元モデルがどの部品であるか?を調べられるといいよね
  • 同一物体を表現してる三次元形状モデルが2つあるとき,それが同じかどうかを調べるのは結構大変

    • 当然,微小なノイズだったり欠損だったりを含むわけで
    • 簡単に言うと試行錯誤を伴う,最小化問題
  • 三次元物体認識のひとつ,ICPアルゴリズム

    • Iterative Closest Point

      • Iterativeの通り,試行錯誤なわけです
    • 2モデルの各メッシュ間の対応点を探して,誤差を求める
    • この誤差を最小化するように三次元モデルを平行移動したり回転したりします
  • ICPアルゴリズムの問題

    • 上のかんたんな説明からもう明らかなように…
    • 重い
    • ローカルミニマムに陥りやすい

      • 例えば鉛筆の三次元モデルのマッチングなんかだと180度回転してマッチしちゃいそうですよね
  • 全探索によって局所解を避ける手法の提案

    • 三次元モデルのさまざまな並進・回転を大量に用意しといて,そっから試す
    • ある試行において極値が付近になさそうなら,もうやめる
    • 近くに極値がありそうな試行だけ反復を続行していく
    • 高次元空間における極値なんてそうそう生じるものではないので,それほど多くはならない
  • それでもこのままだとICPアルゴリズムをベタにやるのに比べて,極値の数ぶんだけ計算をしなきゃ
  • 距離を三次元テーブル化する

    • 三次元形状モデルの外接直方体内の各点における物体表面からの距離をテーブル化しとくことで高速化
  • 実験するとふつーにすごく速い
  • 全探索するときの量子化間隔は固定

    • ここを例えば微分値に応じて適応的に決めるようにしたら精度と速度を向上させられないかな?と思った.
『複合現実感システムのためのテクスチャの局所特徴を用いたマーカ識別と方向推定』(豊橋技術科学大学)
  • うちの大学からですが研究室は違うし面識もありません
  • 僕AR好きなんですかね,またARのマーカのネタです.
  • 簡単に言うと,任意画像をマーカにしちゃえという話

    • 青い線の中に自分の好きな画像を印刷
    • 認識システム側にもその画像をマーカとしますと登録
    • あとは局所特徴量に基づく対応点を取得
    • 対応点の座標からマーカの三次元平面が取得できる
  • いいとこ

    • オクルージョンに対して極めて強い

      • マーカを手で持って部分的に隠しても余裕です
    • マーカの種類を膨大にできる

      • 色とかパターンによるマーカの区別はせいぜい数種類が限界
      • マーカ画像を適切に選べば極めて多くの種類を設けられる
  • デモみたかんじ

    • 結構速い
    • 後述の局所特徴量なんかと合わせるとスマートフォンとかでゆめがひろがりんぐ
『高速かつメモリ消費量の少ない局所特徴量』(デンソーアイティーラボラトリ)
  • これはもうすごい発表でしたよ

    • ポスターセッションでもう常時20人ぐらいが人だかりに
    • 2人の方が独立に説明してても全く捌けてないw
    • 当然,セッション賞をもらってましたし
  • 局所特徴量に基づく画像中の点の対応付けは画像関連技術の中でも基本的なミッション

    • SIFTが最も一般的
    • 結構重いので,高速化したSURFを開発
    • まだ重い
  • ということで局所特徴量「CARD」を提案

    • Compact And Real-time Descriptors
  • まず,特徴領域の検出からして高速化

    • 2種類のルックアップテーブルを用いる
  • 特徴量の記述も高速

    • Supervised Sparse Hashing(SSH)によるバイナリコード化
    • 記述量も128bitとSIFTの1/8
    • バイナリコードにすることで比較はハミング距離で出せる
  • そんなこんなで超速いしメモリも食わない
  • デモを見たかんじだと速度は文字通り桁違い
  • 検出される点数もぱっと見はそんな変わらないかんじ
  • 性能を比較する上では同一のキーポイント集合でやらないといけないので,性能比較の結果はどちらかというと控えめなレベルだと思います

    • これについて,異なる局所特徴量の方式を比較する際に有効な方法が確立されてなく,それも今後の課題だとのこと
  • ちょっとこれはimplementしてみたいですね

…と,こんなところでしょうか.
おおおっと思わされる発表は他にもたくさんありまして,全部まとめてみたいのですが,ひとまず特に気になった,その中で内容もそれなりに理解できたのはこのあたりです.

交流

今回のMIRUでは,(数少ないながら)これまで僕が参加したことのある学会・研究会とくらべて,学外の方と非常に活発に交流することができました.
ひとつはJapanCVに参加したこと自体もですし,あとは普段名古屋CV勉強会でお世話になっている方々を架け橋としての交流も多く,素晴らしい体験ができたと思っています.

  • JapanCVで多くの方と出会えました

    • @payashimさん
    • @Hi_kingさん
    • etc…
  • 懇親会では,

    • 中京大・中部大のB4の方たちといろいろ話ができました
    • 僕が志望している大学院に所属する何名かの先輩方と初めて話ができました
    • @wosugi3さんとは僕がtwitter始めた最初期から絡みがあったのですがついに直接出会うことができました
  • 懇親会の二次会で

    • 愛知工科大学・手島先生(@tomoaki_teshimaさん)に誘っていただいて,慶應義塾大・斉藤研究室の方7名と二次会に
    • 名古屋大学の方2名も
  • 1度2度くらい名古屋CVに来られたことのある方と久々に会うことが出来たり

    • 広島大・玉木先生など

その中で結構面白い・とか興味深い話も聞けました.

  • 早稲田の博士課程は授業料がいらない
  • 学生支援機構の奨学金の返還免除はぜひやっとこう
  • 企業の奨学金(給与)もイイよ

    • 併願可のところもある
    • 帝人には返還も就職も不要な,まさに完全なスカラシップが…

折しも進学活動中なのでこういう話に結構聞き耳を立ててしまうのですw
あとは,ちょっと気になった話

  • 中京大学では学部2年生で研究室配属されます
  • なにそれ超羨ましい
  • 3年間あれば,勉強時間と研究時間をどんな比重にしようが,有意義に使えるじゃん
  • 正味9ヶ月で勉強から研究,ついでに就活や進学も考えないといけない僕らと比べたら,そりゃ同じだけの成果を挙げられる気がしないです.
  • まぁうちの大学の場合ちょっと特殊で,B2配属は不可能でB3配属もわりと困難なんだけど…
  • で,これについて@wosugi3さんとも話が合って…
  • 「配属前でもウェルカムな仕組みにすればいいのに」

    • それに対して,「個々の先生は別にウェルカムですよ」という反論がありそう.それはそれでもっともです
    • 個人のやる気の問題と片付けられそう
    • でもそれはなんか違うじゃん?

      • (僕ほどアグレッシブな人間がしてないんだから何もなけりゃほぼ誰もしないですよ,と小声で)
    • なんかこう,制度としてウェルカムな仕組みを用意してほしいなーと思ったのです.
  • 甘いですかね.どう思われますか.

全体を振り返って

  • 一言,超楽しかった
  • 飲みニケーションのチャンスを少なくとも2度逃したのは痛かった
  • 超疲れた.そりゃまぁ
  • ちょっと!楽しすぎていろいろやりたいことが増えて院試の勉強が出来ないじゃありませんか!><;;

    • 黙れ

今後

院試に続いてお盆休みもあり,それが終わるとすぐ卒研のスパートに入ります.
何か学会・研究会に参加したい気持ちは非常に強いですが,進捗次第といったところ.
あとは研究室のB4の中では僕ひとりが極端に食いつきまくってるかんじなので,そろそろ同級生にも行かせる(≠譲る)ことができたらなーと思ってる次第であります.

謝辞

この場を借りて…

  • まずは研究費からこんな素晴らしいイベントに参加させていただいたうちのボスに感謝です.

    • B4からガンガン動けてほんといい経験させていただいてます.
  • 名古屋クラスタの方

    • 普段世話になってる名古屋クラスタの方がおられなければまぁずっとぼっちでぶらぶらしてたことと思います
    • 特に今回僕がいろんな人と交流できてこんな楽しいイベントになったのは,ひとえに@tomoaki_teshima先生のおかげです.
  • あとは月並みですが,運営の方やセッションをされた方,聴講をされた方にも感謝です.

旅程

ところで,内容とは関係ないですが,一応旅程を.
先日の記事にもありましたように前座イベントとして同会場で開催された全日本CV勉強会(JapanCV)に参加しました.

  • 18日:夜に名古屋へ.ネカフェでJapanCVのLT資料を作る
  • 19日:朝から金沢へ.JapanCVへ参加.懇親会を逃したので先輩と居酒屋へ
  • 20日:MIRU初日.初っ端から大寝坊.
  • 21日:MIRUの二日目.
  • 22日:MIRUの三日目.夜は金沢ゆめのゆで過ごす
  • 23日:昼過ぎに金沢を出る.自室に戻ったのは21時過ぎorz

5泊6日ですか.去年参加したセプキャンよりも,3年前に行ったインターンシップよりも長い….

てか金沢遠い…豊橋からなら新幹線使えば山口の実家まで全体で5時間とかそんぐらいなので,あんまし変わらなかったり…

コメントを残す

メールアドレスが公開されることはありません。