第9回名古屋CV・PRML勉強会に参加しました

今月も，名古屋CV・PRML勉強会が開催され，参加してまいりました！

いつもの乱雑なメモ形式で報告いたします．

と言ってもスライドをずっと追いかけてたときとか，あと後半ほど自分の脳みその疲労がアレでメモのクオリティ下がってます＞＜；；
そこんところはおゆるし願います…

今回の勉強会について

日時: 2011年7月16日
場所: 中部大学名古屋キャンパス(いつもの場所)
イベントページ: http://partake.in/events/ca2f9aaf-e529-4fce-ad91-7975ae67ec5e
テーマ: 先月開かれた学会CVPRの論文紹介
参考ページ: CVPR2011のページ http://www.cvpapers.com/cvpr2011.html
togetter: http://togetter.com/li/162170

CVPRについて

アメリカの国内会議
- だけど普通に世界からくる
IEEE
開催地はアメリカ
毎年開催
ICCV ICPR (国際会議)は2年に1回
- こんどはつくばであるよ！
今年は6/20〜6/25
投稿数1677件！！26%くらいしか
採択の分野をみると流行りがわかっていいよ！！
最近はwebで公開されてたりしてすごい便利！
玉木先生のCVPR参加レポートもぜひ
- http://ir.lib.hiroshima-u.ac.jp/00031494

miyabiartsさんより

Real-time Human Pose Recognition in Parts from Single Depth Images

Best Paper
Kinectによる姿勢推定の論文
Microsoft Researchの方

背景

関節の3次元位置を取得して頑健でインタラクティブな姿勢推定
ゲームとかHCIとかセキュリティとかTelePresenceとかヘルスケア
単一の距離画像からの人体姿勢認識が凄い盛ん
距離画像ベースの研究が盛ん
- 通常カメラよりずっと計算コストが低い
- 通常画像でもがんばる研究もそっちはそっちで盛ん

論文の目的

kinectによる単一距離画像で高速・高精度・低計算コストな人体姿勢認識

手法の流れ

人体を背景差分で検出
人体をパーツ分割
関節の三次元位置を取得

アプローチ

人体パーツを予め学習
- 膨大な姿勢データが必要になるがこれは自動生成
人体パーツの識別・姿勢推定
- Random Forest識別器

学習データの生成

モーションキャプチャデータmocap (CMU)を利用．50万データ
似ている形状を間引いた10000データを利用
形状データ
motionbuilderで
モーションキャプチャデータを元に変形した3Dメッシュをレンダリングしてから深度バッファを首藤
- それをもとに学習
結構リアル

RandomForest識別器

人体パーツは31種類．腕とか頭とか〜
特徴量は，深度画像の注目点周りの2点間の距離の差
- 計算コストが非常に低い！！
人体パーツ分割
- random forest識別器によって各画素の所属する人体パーツを識別
RandomForestは決定木の集合で，各ノードにおいて特徴を識別
- これ自体の解説は省略で
生成した正解人体パーツつきの画像で学習(RandomForestの生成)

関節の3次元位置推定

各パーツごとに関節の3次元位置を推定
- 密度推定を行って最瀕値を推定
- Mean-Shiftベースの手法を利用

実験！！

人工データ30万枚
- 学習データに実データは含まれない
- 実データを学習したものはない
テストデータ
- 人工データセット5000枚
- 実データ8808フレーム
  - 15個の異なる対象
かなりいいかんじに出てる
パーツ推定がうまくいけば92%で推定可能

まとめ

高速・高精度・低計算コスト
第14回関東CV勉強会(CVPR祭り)でさらに詳しく紹介する

質問

Kinect用SDKは非常に高精度だけど，

加藤さんより

超解像について2つ！

CVPRでは1枚超解像，1動画からの時空間ビデオ超解像，ビデオ超解像(モーション・ブラー・ノイズを推定)
- 最初の2つを紹介

まず超解像について

複数フレーム
- 同じものを撮影した複数画像から
1枚超解像
- 別にデータベースを用意(低解像度画像と高解像度画像のペア)
- 入力自身からデータベースを生成するような手法も

Single Image Super-Resolution using Gaussian Process Regression

まず実際の画像

お，できてる

研究概要

1枚超解像
学習とかない
ガウス過程回帰による高解像度画像の推定
エッジとかの局所的構造を

全体の流れ

入力画像を大きい画像にアップサンプル(これは当然ボケる)
それをもう1回ダウンサンプル(こうするとボケのある低解像度画像)
この元画像と，ボケのある低解像度画像との関係を回帰モデルで学習
その学習結果を，最初にアップサンプルしたでっかい画像に適用する

回帰をもうちょい

入力ベクトル
- ボケのある画像の周辺画素
出力値
- ボケのない画像の周辺画素
全ての画素に対して回帰を行う

質問

小さい画像で求めた回帰をそのまま大きい画像にあてはめて大丈夫？
- 論文では普通にそのままやってた
その他いろいろ＞＜

Space-Time Super-Resolution from a Single Video

一つの動画から時間方向と空間方向両方に解像度をあげる(つまり解像度とフレームレートが上がる)

概要

一本の動画を入力して時空間超解像をする
自己相似性を利用
- Space-Time Patchers(5x5x3) (空間方向5×5，前後で計3フレーム)
似たようなパッチが1動画中にはたくさんあるから超解像的な原理でできる

1枚事例ベース超解像

入力画像からピラミッド作成(低解像度化)
入力画像のあるパッチの類似パッチをピラミッドのいちばん小さい画像中から見つける
ピラミッドの大きい方に親パッチ(同一パッチ)をさたどって探していく
そのときの子と親の関係を，入力画像に適用することで

動画への応用

時間方向にもピラミッド化する
あとは同じ

林さんより(名大M1)

Enforcing topological constraints in random field image segmentation

概要

トポロジを保存した画像セグメンテーション
領域の連結性と穴の数を保存する
グラフカットとかだと，ひとつの物体がふたつに分かれたりする
余計な穴も出したくない

提案手法

ふつうのセグメンテーションは，確率場を利用する
- これはエネルギー関数の最小化問題
- 画素値とか隣接関係などからエネルギー関数を定義する
これをグラフカットに
これに制約を導入すると？
- トポロジによる制約を導入する
- これを満たす領域でエネルギーが最小の領域のものを求める

質問

トポロジに関する情報は既知とするかんじ
- ただ「ひとつの物体を認識したいのでひとつの領域」というかんじの制約設定でわりといい

Natural Image Denoising : Optimally and Inherent Bounds

背景・目的

画像のノイズ除去
- 近年までで飛躍的に進歩
- でもここんとこ大きな改善が無い…
- じゃあ，ノイズ除去の限界ってどうなの？
理論上可能なノイズ除去はどのくらいなの？
- パッチベースの手法で理論を

概要

ノイズ除去とはノイズ画像からノイズのない画像を推定すること
評価値はPSNR
- MSEの逆数の対数
こうしてプロットしてみると，既存の手法がすでに理論値に近い…！？

全体のまとめ

久徳さんから

自己紹介！！
ustのひと！
fararrow9
車載カメラの研究

発表資料はこちら: http://www.murase.nuie.nagoya-u.ac.jp/~kyutoku/nagoyacv/kyutoku_nagoyacv_110716.pdf

Glare Encoding of High Dynamic Range Images

HDRとは

広いダイナミックレンジをもつ画像を生成
通常は複数の露出で撮影した画像を合成してる
- 動いてる画像には不向き

研究の目的

1枚の画像からHDRしたい！！
だたLDRから拡張するだけでは限界がある
- 飽和部分つまり得られてない情報をもっともらしく推測するしかできない
そうではなく，フィルタをかけることで能動的に情報を取得
- レンズに物理的なフィルタをかける
- きらきらするかんじのフィルタ．

提案手法の流れ

グレアフィルタのかかった画像から既存手法によってグレアを除去
これをもとに飽和画素からグレア除去のパラメータをつかって
うおおおお

実験

多くの光源があってもロバストに推定

本手法の制約

飽和領域の面積が大きすぎるとむり
- グレアがわからないほど非飽和領域が残ってないレベル
- つまり点光源でないとしんどい＞＜
- 面光源は難しい，つまり部屋の中から窓も写してるかんじだとしんどいかも

まとめ

単一画像からHDR画像取得手法の提案
既存手法とは大きく異なる
特別な器材・センサは不要
今後
- 検出の用意なパターンを持つフィルタの設計
- ビデオ撮影への適用

皆川さんより

関東CVの幹事
@takminさん
慶応大の共同研究員
CVのアプリケーションを開発するような仕事

A Coarse-to-fine approach for fast deformable object detection

Deformable Part Modelという物体検出手法を高速化

すみませんずっとスライドを追いかけていました．

http://d.hatena.ne.jp/takmin/20110716/1310831901
http://www.slideshare.net/takmin/pedersoli-objectdetection

山田さんより

立命館大学のD3
手の形状推定
japancvもLTするよ！

2D nonrigid partial shape matching using mcmc and contour subdivision

変形や隠蔽を含む場合の部分輪郭の対応付けを行う
- テンプレートと，部分隠蔽のある輪郭情報との対応付け

結果例

論文の概要

輪郭の相違度に，回転・並進・スケールに関してロバストなProcrustes Distanceを利用
入力形状となる輪郭点列とテンプレートとなる輪郭点列の対応関係を記述す行列Mを導入

輪郭の相違度

Procrustes Distance
- 重心を基準とした座標系
- スケール・並進・回転に不偏

部分輪郭の対応付けと相違度

Matching Matrix(M)で表現される対応点Z1,Z2だけを用いたProcrustes Distanceを利用
Mは隣接行列っぽいかんじ？

対応付けの尤度

尤度関数

Matching Matrixに求められる性質

テンプレート点列と類似した点を対応付ける
- 尤度関数の値を大きくすること
できるだけ多くの点を対応付ける
隠蔽による輪郭は連続的に出現するはずだ
- 事前分布でこれを反映させる

事前分布

事後分布∝尤度関数*事前分布
この事前分布はギャップGによって決まる(Gが大きいと事前分布が小さく)
ギャップは対応点が無いとか

中部大・後藤さんより

Monocular 3D Scene Understanding with Explicit Occlusion Reasoning

単眼カメラによる3次元シーンの理解と遮蔽の推定
全身検出器
- 人に隠れが生じると検出不可
部位の検出器
- 遮蔽への対応が可能だけど誤対応も

本論文で使用する人検出器

人の全身検出器
6種類の人の部位の検出器
特徴量はHoG，学習はSVM，学習データはINRIA Person Dataset

検出対象シーンの条件

地平面と三次元座標上のy軸が平行
内部パラメータと外部パラメータは既知
対象物体は地平面上に

三次元シーンの理解

対象物体が地平面に経つと仮定
観測モデルと事前知識でやる
検出器の定義
地平面上の対象物体のスコア

遮蔽の推定と複数識別器の統合

検出結果の前後関係の理解
前景物体との重なり具合を用いて複数識別器を統合
- 前景との重なりが大きい時は期待値を低く

実験

deformable part modelより精度が良好！！

藤吉研のB4の方，三品さん

Recognition Using Visual Phrases

複数の物体とその関係を考慮した物体認識
- Visual Phrasesの導入
- オブジェクトを複合すると見え方の変化が大きい

Decoding Multiple Detections

Deformable Part Model

さっきもあった！

検出器

Latent SVM
パーツモデルを導入して，目的関数を劣勾配降下法で

評価実験

単一クラス識別器と比較すると，ほとんどのPhraseにおいて精度向上

まとめ

複数のオブジェクトを持つ物体の認識に置いて精度向上
構造を理解することで単一物体に関しても精度向上

各務さんより(藤吉研)

Cross-View Action Recognition via View Knowledge Transfer

研究の目的

見え方の異なる2つ以上の映像から人の動作を認識
どの見え方でも有効であるような動きの特徴を得る
2つの映像による転移学習

転移学習

「新規タスクの効果的な仮説を効率的に見つけ出すために一つ以上の別のタスクで学習された知識を得てそれを運用する問題」
チェスの戦略のためにチェッカーの戦略を転移学習する
ある言語を理解するために別の言語を転移学習する

手法の流れ

2つ以上のViewからそれぞれ特徴としてBoVW(Bug of Visual Words)を得る
訓練データベクトルから2項グラフをつくる
これをグラフカットでガッ
グラフの重みは類似度w
つまりもっとも関係の弱いところでカットするかんじ

比較実験

他の同様な手法と比べると全体的に精度向上！！

後藤さん(藤吉研)のもう一人のほう

Discrete-Continuous Optimization for Large-Scale Structure from Motion

オンライン画像から3次元モデルを復元

従来の復元の手順

特徴点検出
特徴点の対応付け
初期化
バンドル調整

逐次バンドル調整

多くのシーンに対応可能だけど，計算コストがすごい
入力画像の順序によって結果が変わる

提案手法

データセットをグラフの幾何学的制約で表現
MRFでモデル化
- カメラペア間での制約
- カメラ単体の制約
カメラパラメータの最適化をする
- 回転と並進の誤差が最小になるように

Discrete BP

提案手法の流れ

／(^o^)＼

実験

計算時間が6倍とかに高速化！

中部大・縣さん

Markerless Motion Capture of Interacting Characters Using Multi-view Image Segmentation

マーカをなくしたモーションキャプチャしたい
- そういう手法は結構精度いい方法が既にある
従来手法では対象人物が一人なので，それを二人にしたい
また，接触部分も正しくキャプチャしたい

アプローチ

MRFに基づいて2人をセグメンテーションしてそれぞれでキャプチャ
- 色の尤度と形状情報を組み合わせることにちうい
表面形状とスケルトンを推定

セグメンテーションの方法

グラフカット
- それに姿勢と形状情報を表す項を追加して精度向上
- 色の尤度だけつかってると，うまくセグメンテーションできないことがある

従来法との比較

接触部分とかも改善できた！
マーカーありによる技術との誤差も30mm以内に入るなど十分実用的！

懇親会

金山の山ちゃんに
- 1週間前にQt勉強会で名古屋駅の近くの山ちゃんに行ってたりｗ
名大関係者に周囲を固められたかんじでしたｗ
いわゆる純粋な数学と工学数学がどうのっていう話とかありました
- 僕は工学数学の方しかぜんぜんわからんです
- 数学者は統計学を異端と呼ぶらしいですね
懇親会の話は結構飲んだのであんまし覚えてませんｗｗ

感想

最先端研究の論文を日本語で紹介してもらうって機会もあまりないですね
twitterでも発言しましたがいくつかは僕も自分の所属する研究室で紹介したいと思います
藤吉先生の研究室からB4の方が2人担当されていました
- 僕もB4なんですよね
- すごいなぁ…
実は前回勉強会のあとmiyabiartsさんから何かしゃべらないかとお誘いを頂いて僕も非常にノリ気だったのですが…
- 院試がー院試がー
- 甘えですね
- そうこうしてるうちに声すらかからなくなったらおしまいですよっと

ところで

すぐ次の週，というより明後日からMIRU2011があり，その前日には全日本CV勉強会があります

LTで私が5分しゃべることになりました

まだ何をしゃべるか考えてないですがｗｗ

備考

来月はお盆なのでお休みです！！
僕もOSC名古屋2011の日まで地元だしちょうどよかったｗｗ