algonote

There's More Than One Way To Do It

第41回コンピュータビジョン勉強会 まとめ&感想 #cvsaisentan

第41回コンピュータビジョン勉強会(CVPR2017読み会 後編)に行ってきました。

Self-Critical Sequence Training for Image Captioning

強化学習を用いた画像からのキャプション生成の論文。

  1. (従来研究) ナイーブなやり方だと、学習時t-1まで教師データを使っているのにテスト時はt-1も推定していて誤差が堆積していく。t-1の教師データ由来と推定由来の比率をランダムかつ次第に推定ベースに変更するScheduled samplingなどがあるが、本論文では強化学習を用いてキャプションを直接評価している。
  2. (従来研究) 報酬は直接偏微分できない。報酬の勾配の期待値を代わりに使うことで微分できない問題を解消している(Policy Gradient by REINFORCE)。
  3. (新規) 従来手法だと報酬の分散が大きい問題があり、学習が安定しない。SCST: Self-critical sequence trainingを使うことでその問題を解消した。

また、追加の知見として、 MSCOCOでは従来のベンチマークと精度の差が少ないが、前景と背景に差があるObjects out of contextというデータセットの比較だと大きな改善が見られた。

大学の先生だからなのか話がこなれていて、数式の意味がよく理解できた(気がする)。

ArtTrack: Articulated Multi-Person Tracking in the Wild

単眼での関節推定の論文。

Human pose trackingは今まで一人か複数人に対してのトラッキングでも走ったりではなかったが、Top-DownのPart Detectionで顔(あご)から探索し、人が重なっている部分についてはBottom-upの手法も組み合わせて、それを可能にしている。速度についてはCNN部分は遅く、graph部分ははやくなった。

細かい改善を地道にしていった印象。にも関わらずCNNで少ない候補点をだすOpenPoseの方が5msで速いと聞いて少し残念。

最近のSingle Shot系の物体検出のアーキテクチャまとめ

論文そのものの紹介というよりSSDでの物体検出のまとめ。

SSDの基本は W x H x (Bboxの座標 + 検出スコア) x B。Bはスケールでもアスペクト比でも可。コンテキストが重要でYOLOv2で耳に手を当てるとMobile phoneが出てくる。DSSDはほぼUnetでSegmentationとDetectionのアーキテクチャは同一化していく。

Annotating Object Instances with a Poloygon-RNN

アノテーションの効率化の論文。

多角形で物体にアノテーションを付与。RNNによって2つ前の頂点情報から次の1点を予測している。始点はCNNで推測。ネットワーク構成はVGG+concat (global + local) => ConvLSTM => DxD+1 (EOS) 。4.7倍の効率化に成功。

ナイーブなアノテーションよりIoUが高い。Q&Aの指摘「前景、背景選択よりバウンダリー選択の方がやりやすいのでは?」

Global Optimality in Neural Network Training

大域最適解を保証する数学よりの論文。

正斉次性のある演算要素のみで構成されたネットワークは正斉次性がある。一つのサブネットの重みをゼロとした面に局所解がある時それを除いた残りのネットワークは凸関数に変形でき、大域最適が保証できる。

ただし、大量のサブネットが必要で計算量的には実用性皆無とのこと。

A Hierachical Approach for Generating Descriptive Image Paragraphs

パラグラフでの画像説明文を生成する論文。

従来とDenseCaptioningでは複数領域それぞれにCaptioningしているが、同内容が重複している場合がある。パラグラフ説明では重複を無くせる。Sentence RNNとWord RNNを組み合わせた階層的RNNを使用。性能向上より新規タスクの提案が主旨。

Light Field Blind Motion Blurring

ライトフィールドカメラのボケ除去の論文。

ライトフィールドカメラはMicrolens arrayが普通のカメラのセンサー位置に配置されており、光の道筋がわかる。 Light Fieldの論文は以前にもあったが、 カメラの動きを求めているのが新規性。

使い所がよくわからなかった。スマホのカメラでなく、業務用途なんだろうか。

Photorealistic Facial Texture Inference

写真一枚からフォトリアリスティック3D Faceモデルを作る論文。

Neural Style Transferの手法をテクスチャ推定に応用している。一度低解像度を作ってから高解像度化させている。自然な結果にするために凸関数制約を入れているほか、前処理として球面調和関数で照明推定し、除去している。