第44回コンピュータビジョン勉強会@関東に(リモートで)参加しました。
強化学習の光と闇
強化学習でとける問題はたくさんあり、部分観測問題を含めればだいたいとける。強化学習には時間がかかり、7000万回試行錯誤しても報酬は0のこともある。結果にもばらつきがあり、A3Cの論文でもモデルの初期化で大きくばらつきが出ている。
(最適)ベルマン方程式が満たされるようにベルマンオペレータで関数を更新していけばだんだん最適関数に近づく。=>動的計画法。強化学習ではこれを近似的にやる。Q学習では収束が保証されているがDQNでは保証されているわけではない。
DQNはそのため頻繁に更新しすぎると学習が不安定になり、Neural Fitted Qでは教師あり学習的な損失関数に変更することで安定化させている。また、直近だけだと学習がうまくいかないので直近100万フレームセットのサンプルを再利用するとよい。(Replay memory)
Double DQNではパラメーターを交互に入れ替えて学習させて、たまたまよかった問題を解決している(ネットワークを2種類用意している)。Dueling Networksはネットワーク構造の方をいじっている。
Prioritized Experience Replayではimportance samplingを、Multi step Learningではもうちょっと先まで見る。長期的な分布の報酬を考慮するのはDistributional RL。手法の比較論文ではこれらはDQNよりも抜くと影響が大きい。
今まで聞いた中で一番よくまとまっていた。とてもよかった。方策ベースはほとんど理解できなかったのが悔しい
Curiosity-driven Exploration by Self-supervised Prediction (ICML 2017)
強化学習に好奇心を埋め込むことで環境の探索を効率化する。予測がうまくいかないところを積極的に探索。単純なA3Cと違い、迷路のように報酬を与えらるのが最後の方でもうまくいく。ICMによりSparseなケースの方が手法による向上幅が大きかった。
Visual Forecasting by Imitating Dynamics in Natural Sequences (ICCV'17)
模倣学習には種類がありNvidiaの自動運転の論文では教師学習でやっているが事例がないところでは推定できない。逆強化学習(IRL)では事例からコスト関数を推定し、なるべくエキスパートに近くなるようにコストを最小化する。IRLはOMMの双対問題とみなせる
Visual Forcastingではdeep featureを通してoccupancy measure matchingのような方策を学習させている。
フレーム予測の方が自動運転より挙動が安定している気がしたが、それでも単純なLSTMより上手くいくのか
Reinforcement Learning in Robotics: A SurveyのさわりとImitation from Observation: Learning to Imitate Behaviors from Raw Video via Context Translation
うん、Ustreamが不安定で聴けなかったんだ😭
資料を見る限り、事象を観測して模倣させる論文っぽい。観測値を転移学習させて未知の事象にも対応させる。
Cold-Start Reinforcement Learning with Softmax Policy Gradient
モデルが文を生成する際に教師データに近くなるように工夫することで学習を容易化。文全体の生成確率ではなく単語ごとに文をサンプルする。
Learning to learn from noisy web videos (CVPR 2017)
誤ラベルを含むデータ群の中から有用なデータを選出して学習する。検索エンジンの結果からある程度スクリーニングして認識精度が最もよくなる学習データの組み合わせを選び出す。
Attention-aware Deep Reinforcement Learning for Video Face Recognition(ICCV17)
Videoに写った人の顔認証の精度をあげる論文。良さそうな画像をピックアップして精度をあげる。強化学習on時系列onCNN。画像から直接Attentionを計算しており、強化学習でクオリティーの低いものを取り除いて精度が上がるような組み合わせを求める
Sequence Level Training with Recurrent Neural Networks (ICLR'16)
既存のキャプション生成では評価指標を直接最適化したい、テスト時に外れ出すとエラーが蓄積するという課題がある。MIXERは最初CROSS ENTROPYで次第にREINFの学習の割合を増やす。評価指標を直接最適化。
所感
発表理由が"自分も素人で理解していなかったので勉強もかねて発表する"という人もおり、マインド高くてすごいなあと思いました。
NLPや音声処理はアカデミックが強くてconnpassで定例勉強会をたてて、とまではいっていない印象。"CV"勉強会のイデオロギー的矛盾を生じそうだが、NLPや音声処理縛りでもやっていけそうなパワーを感じました。