ステアラボ人工知能シンポジウム 2018に参加しました。
知識ベースを活用した自然言語処理の手法とその応用
Entity Linkingでは曖昧性の解消、メンションの検出をする必要があり、それぞれWikipedia2Vec、古典的な固有表現抽出でできるがメンションの検出は背景情報が重要であり、実際のコンペでは前処理として固有表現抽出せず曖昧性解消と同時に解いた
Question AnsweringのコンペではEntity Linkingの特徴量を追加、Entityの型予測のネットワークを追加をすることで精度が上がった
深層学習による Kaggle 画像分類コンテストへのアプローチ
前半は過去発表のあったState Farm Distracted Driver Detectionの解説を少し更新したもの。後半はNIPS’17 Adversarial Competitionの解説。
Adversarial Competition (Attack)でのSolutionは公式の平均ベースでこそ4位だったもの強いDefenseに対して強いAttackだと評価が上がるPageRankベースだと1位だった。
一般的なAdversarial Exampleの手法と違い、普通の画像からadversarialな画像を出力するpix2pixベースのネットワークをメインネットワークとすることで実行時間も高速になった。
今回はAttack側の話だったがPFN的にはDefenseの方が需要がある気もする。Toyotaと組んでるし。自動車に載せるにはadversarial風画像を普通の画像に変換するnetworkを前段にはさむんだろうか。
ちょうどDENSO A.I. TECH TALKでヘテロジニアスラーニングの話を聞いてきたのでU-Net風のネットワークもマルチタスクにできると面白そうだと思った(もうある?)。U-Netのネットワークの一部、例えば底とかを共有して本来Computer Visionの処理としては簡単な着色画像=>線画をサブタスクとして追加してPaintsChainerを学習させてみるとか。
データ分析コンテストの勝者解答から学ぶ
最近のKaggleの傾向と分析の流れ、実際の画像系コンペの解説。
集計、可視化が大事。小規模ならExcelのピボットテーブルでも。テストが少ない時はoverfitしやすくPublic LBよりValidationを信頼しましょう。最近は深層学習の成果がGANGANと使われているのでサーベイも重要。
ショッピングサイトの画像分類のコンペでは商品idの規則性、testとtrainに似ている画像がないかに着目したら精度が上がった。氷山と船舶の2値分類のコンペでは画像そのものよりも入射角度に着目した方が精度が良かった。
Cdiscount、ImageNetよりクラス数が多いし、データも全然書き出し終わらないくらいあったので、てっきりより解像度を上げたモデルを最初から学習させないといけないと思っていたがfine tuningでいけるのか。ImageNetの解像度から得られる情報で何クラスまでならいけるもんなんだろう。
ステアラボ・PERC主催「メテオサーチチャレンジ」について
Deep Analyticsで開催されているメテオサーチチャレンジの説明。宇宙の画像から流星を検出するコンペ。
画像は宇宙ステーション内から窓に向けて撮影し、一部切り出したもの。元はFull HDの動画。通信容量の制限で動画を直接地球に送れないので今回のコンペを開催した。
流星以外の光もあり、フレーム単位だと光る点なので動画として捉えないといけないらしい。
流星観測プロジェクト「メテオ」について
流星観測についての講義。ドメイン知識の提供。
流星は毎秒地球に落ちてきているが、光る時間は0.3~1sと短い。1時間見上げると1~2個見つけられる程度。宇宙ステーションは紫外線等を防ぐためそれほど窓がない。
なお、流星を搭載したロケットの打ち上げは過去2回失敗しており、その内一回は大爆発。
所感
スカイツリー少し遠かった。Wifiあるといいのとせっかく広い会場だったので懇親会とかやってもよかったかもしれない。
どれもいい発表だったが個人的にはsmlyさんの発表が知見にあふれていてよかった。優秀な人がめちゃめちゃ調べていて勝てる気がしない。
余談
同じ階にマクロスFのバルキリーが展示されていた。スカイツリー、アニメコンテンツも網羅しているとは。やっくでかるちゃー