第45回コンピュータビジョン勉強会@関東に参加しました。今回はLT会。
CycleGanで色々試してみた
PSDファイルのレイヤーをパースして画像の感情をstyle transfer。happyとscaryでCycleGANをやった。ICCV 2017のBAM データセットを使用。データはBehanceからクローリングして作成されており、コンテンツ、表現媒体、感情について分類されている。
SNOW画像の脱SNOW化。100枚程度しかデータが集まらなかったのでdlibのホモグラフィー行列を使ってDATA Augmentation。Snowは上手く行ったりいかなかったり。
ROSってなに?
COBOTTAはROSで動く卓上ハンドロボット。YOLOv3も動く
開発合宿でmindstorm(EV3)が有名だからROSでやってみよう。Ubuntu on Mac by VirtualBox。catkin: work directory。
roscore: サーバーみたいの。topicにたいしてviewerをみる。ROSv2: Windowsに正式対応で catkin => amentとなった。どちらも尾状花序
Cookpad 画像認識
ホットドッグの検出器を作った。Kaggleのhotdogのデータを使用し、Keras CNN。
TensorFlow.jsで画像のホットドッグの部分を明るく、それ以外を暗く。not opencv.js
Cookpad Vision APIで活用されている。
舞台照明とかに使えそう。VTuberの生放送でキャラクターの部分だけ動的に明るくできたらおもしろそう
FPGAに実装したCNNを使用して白色間をそうこうするミニ・ロボットカーの製作
CNNの量子化。FPGAを使用して自動運転。
左旋回、直進、右旋回の3パターンを学習。Vivado HLSを使用してCからHDLへ。推論時間96.3us。
ステアリング角度自体を学習だと量子化が難しいのかなと思ったら学習データ作成の都合で3択だった。
Androidだけでもアリシアちゃんになれちゃうアプリを作った話@第45回 コンピュータビジョン勉強会
https://niconare.nicovideo.jp/watch/kn3002
モバイル端末のデプスなしの画像のポーズから3Dキャラクターを制御。以前は2D<=>3Dの正解ペアが必要だったが今回は使っていない。ChainerをONNX経由でTensorFlowSharpにポート。
openposeを使用しているが、ライセンスについてはまだ深く考えてはいない。
TensorFlowで2年ほど遊んでる話
https://drive.google.com/file/d/1T6FgxbUyeNxPar0AIKEjvNgttQAwe63_/view
ヌード画像生成。出力画像はみせられない
懇親会で少し見せてもらった結果ではまだ学習しきれていない感じだった。ポーズ情報なしの生成は難しいということかもしれない。
画像解析プラットフォームScorerの紹介
SXSWで飛ばないドローンを出した。SCORER Cloud ProcessingならOpenPoseが300円/1h
今は個人的に相談。dockerで動いている
ChainerCVの紹介
ChainerCV: 物体検出、セグメンテーション、次のリリースでインスタンスセグメンテーションも。ease of useに重きをおいており、複数の囲みも後処理で一つにしてくれる。
Faster R-CNN, SSD300 PSP-net, yolov3
CVであまねく4コマ漫画をコマ画像に切り出したい話
https://slideship.com/users/@esuji/presentations/2018/04/9EL6HYZ9jsGb9Qngj9ZYhH/
Non-deepな手法で4コマ漫画のコマを切り出した話。
実際試して、コーナーケースを地道に潰しにかかっていた。きゆづきさとこ先生むずすぎ。
Depth Imageからの Keypoint Detection
Kinect後継者争い問題で悩みたくない。Mask R-CNNでDepth Imageからの Keypoint Detection。Chainer 4からiDeepが入り2.5倍くらい早くなった。
NVIDIA Vision Works tips
OpenVXはクロノス・グループが仕様策定しているコンピュータビジョンアプリケーション向けのライブラリ、フレームワーク
NVIDIA VisionWorks
CMakeするときはfind packagesだけでOK
OpenCVとの連携が最近はできる。3.0も最近サポートされた
- graph mode
- 同期処理が少ない、高速
- debug難易度があがる
- immediate mode
- SemiGlobalMatching
幅が4の倍数でないといけない
OptionをO3にしても高速化されなかった
たのしいアノテーション
既存のツールはまず、Pythonいれます(LabelImg, iPhotoDraw)。より簡単にWindowsで動くツールを作った。裏でYOLOv2が動いて候補を出す
アノテーションツール、フォトショのプラグインが一番クロスプラットフォームで操作性がいい気がする。ドキュメントがpdf onlyで例が少なくつらそうでしたが。MacならSketchのプラグインがよさそうだけどWindowsでの代替ソフトがよくわからない...
どくさいレンズ
MRでカップルを視界から消去。トラッキング対象を指定=>トラッキングしつつうめこみ
OpenCVにはInpaintingの手法が2つ入っている。今回はFast Marching Method(FMM)。 Inpaintingが重い=>各処理で画像サイズを分ける
Asicsの事例
ランキーパー買収した
オーダーメイドシューズ。サイズ選択への不安 => MOBILE FOOT ID: A4の紙の上に足をおき、足の長さと幅をスマホ画像から算出
またスポーツ解析でピッチ、ストライドを評価。AWS Ubuntu NGINX django Kears/TF GPU instance 安いのでも月10万円かかるのでCoreMLで動作を検証中
A4の紙を使うのはとても賢い気がする。これを全身でやればZOZO SUITディスラプトできるのでは。
SSDで道路の損傷を検出
SLAM研究開発の会をつくった
ChainerCVでRoadDamageDetector。Dataseは CC BY SA 4.0 license。 https://github.com/sekilab/RoadDamageDetector
- SSD VGG16
- ResNet-101に置き換え
Imbalanceでデータ量が少ないものは精度が低かった。
モバイルGPUでOpenCL
OpenCL: クロノスグループが策定。
デスクトップと違いモバイルGPUはたくさん。PowerVRはiPhone向けのGPUを売っていたがAppleが独自GPU路線に。
ラズパイはハードウェア的に非対応だがドイツの学生が修論で部分的に置き換えた。
所感
いろんな試行がみれておもしろかった。自分も何か完成させたい。