algonote

There's More Than One Way To Do It

第45回コンピュータビジョン勉強会@関東まとめ&感想 #cvsaisentan

第45回コンピュータビジョン勉強会@関東に参加しました。今回はLT会。

f:id:hiromichinomata:20180504174103p:plain

CycleGanで色々試してみた

PSDファイルのレイヤーをパースして画像の感情をstyle transfer。happyとscaryでCycleGANをやった。ICCV 2017のBAM データセットを使用。データはBehanceからクローリングして作成されており、コンテンツ、表現媒体、感情について分類されている。

SNOW画像の脱SNOW化。100枚程度しかデータが集まらなかったのでdlibのホモグラフィー行列を使ってDATA Augmentation。Snowは上手く行ったりいかなかったり。

ROSってなに?

COBOTTAはROSで動く卓上ハンドロボット。YOLOv3も動く

開発合宿でmindstorm(EV3)が有名だからROSでやってみよう。Ubuntu on Mac by VirtualBox。catkin: work directory。

roscore: サーバーみたいの。topicにたいしてviewerをみる。ROSv2: Windowsに正式対応で catkin => amentとなった。どちらも尾状花序

Cookpad 画像認識

techlife.cookpad.com

ホットドッグの検出器を作った。Kaggleのhotdogのデータを使用し、Keras CNN。
TensorFlow.jsで画像のホットドッグの部分を明るく、それ以外を暗く。not opencv.js
Cookpad Vision APIで活用されている。


舞台照明とかに使えそう。VTuberの生放送でキャラクターの部分だけ動的に明るくできたらおもしろそう

FPGAに実装したCNNを使用して白色間をそうこうするミニ・ロボットカーの製作

CNNの量子化。FPGAを使用して自動運転。

左旋回、直進、右旋回の3パターンを学習。Vivado HLSを使用してCからHDLへ。推論時間96.3us。


ステアリング角度自体を学習だと量子化が難しいのかなと思ったら学習データ作成の都合で3択だった。

Androidだけでもアリシアちゃんになれちゃうアプリを作った話@第45回 コンピュータビジョン勉強会

https://niconare.nicovideo.jp/watch/kn3002

モバイル端末のデプスなしの画像のポーズから3Dキャラクターを制御。以前は2D<=>3Dの正解ペアが必要だったが今回は使っていない。ChainerをONNX経由でTensorFlowSharpにポート。

openposeを使用しているが、ライセンスについてはまだ深く考えてはいない。

TensorFlowで2年ほど遊んでる話

https://drive.google.com/file/d/1T6FgxbUyeNxPar0AIKEjvNgttQAwe63_/view

ヌード画像生成。出力画像はみせられない


懇親会で少し見せてもらった結果ではまだ学習しきれていない感じだった。ポーズ情報なしの生成は難しいということかもしれない。

画像解析プラットフォームScorerの紹介

SXSWで飛ばないドローンを出した。SCORER Cloud ProcessingならOpenPoseが300円/1h

今は個人的に相談。dockerで動いている

ChainerCVの紹介

ChainerCV: 物体検出、セグメンテーション、次のリリースでインスタンスセグメンテーションも。ease of useに重きをおいており、複数の囲みも後処理で一つにしてくれる。

Faster R-CNN, SSD300 PSP-net, yolov3

CVであまねく4コマ漫画をコマ画像に切り出したい話

https://slideship.com/users/@esuji/presentations/2018/04/9EL6HYZ9jsGb9Qngj9ZYhH/

Non-deepな手法で4コマ漫画のコマを切り出した話。


実際試して、コーナーケースを地道に潰しにかかっていた。きゆづきさとこ先生むずすぎ。

Depth Imageからの Keypoint Detection

Kinect後継者争い問題で悩みたくない。Mask R-CNNでDepth Imageからの Keypoint Detection。Chainer 4からiDeepが入り2.5倍くらい早くなった。

NVIDIA Vision Works tips

OpenVXはクロノス・グループが仕様策定しているコンピュータビジョンアプリケーション向けのライブラリ、フレームワーク

NVIDIA VisionWorks
CMakeするときはfind packagesだけでOK
OpenCVとの連携が最近はできる。3.0も最近サポートされた

  • graph mode
    • 同期処理が少ない、高速
    • debug難易度があがる
  • immediate mode
    • SemiGlobalMatching

幅が4の倍数でないといけない
OptionをO3にしても高速化されなかった

たのしいアノテーション

既存のツールはまず、Pythonいれます(LabelImg, iPhotoDraw)。より簡単にWindowsで動くツールを作った。裏でYOLOv2が動いて候補を出す


アノテーションツール、フォトショのプラグインが一番クロスプラットフォームで操作性がいい気がする。ドキュメントがpdf onlyで例が少なくつらそうでしたが。MacならSketchのプラグインがよさそうだけどWindowsでの代替ソフトがよくわからない...

どくさいレンズ

MRでカップルを視界から消去。トラッキング対象を指定=>トラッキングしつつうめこみ

OpenCVにはInpaintingの手法が2つ入っている。今回はFast Marching Method(FMM)。 Inpaintingが重い=>各処理で画像サイズを分ける

Asicsの事例

ランキーパー買収した

オーダーメイドシューズ。サイズ選択への不安 => MOBILE FOOT ID: A4の紙の上に足をおき、足の長さと幅をスマホ画像から算出

またスポーツ解析でピッチ、ストライドを評価。AWS Ubuntu NGINX django Kears/TF GPU instance 安いのでも月10万円かかるのでCoreMLで動作を検証中


A4の紙を使うのはとても賢い気がする。これを全身でやればZOZO SUITディスラプトできるのでは。

SSDで道路の損傷を検出

qiita.com

SLAM研究開発の会をつくった

ChainerCVでRoadDamageDetector。Dataseは CC BY SA 4.0 license。 https://github.com/sekilab/RoadDamageDetector

  1. SSD VGG16
  2. ResNet-101に置き換え

Imbalanceでデータ量が少ないものは精度が低かった。

モバイルGPUでOpenCL

OpenCL: クロノスグループが策定。

デスクトップと違いモバイルGPUはたくさん。PowerVRはiPhone向けのGPUを売っていたがAppleが独自GPU路線に。

ラズパイはハードウェア的に非対応だがドイツの学生が修論で部分的に置き換えた。

所感

いろんな試行がみれておもしろかった。自分も何か完成させたい。