言語・音声ナイト(エンジニア向け)に参加しました。
深層学習時代の自然言語処理ビジネス
実は自然言語処理はそんなに使われていない
- 2012 木構造
- 2013 word2vec
- 2014 LSTM(元は1996)
- 2015 注意機構
- 2016 畳み込みネットワーク、記憶のモデル化
深層学習は連続的なデータのほうが得意。誰一人機械翻訳にお金を払っていない
なぜ言語処理は役に立てないのか?
- 人間にとって簡単すぎる
- 機械にとっては難しすぎる
=> 機械に有利な状況が少ない
使う場面が変わることで今までの精度でworkするケースが出てくる
どちらかというとビジネスよりの話で技術的な成分が少なかったので残念。本買えってことですね。
深層学習に基づくテキスト音声合成の技術動向
隠れマルコフモデル => 2013~ DNNを用いた手法
表現豊かな音声合成の研究。データは児童書のオーディオブックから取得。フレーズごとにidを割り当てておりいる。
doc2vecで類似度計算して、フレーズコードを判別、そのキャラクターっぽいセリフはそのキャラクター風に話す。
http://www.sp.nitech.ac.jp/~swdkei/syn/ASJ_2017_09/index.html
オーディオブックの読み上げは基本1人?キャラクターの種類や地の文の違いは結局、声質というより音高や速度の学習。
Deep Learningの音楽/メディアアート領域での活用事例
メディアアート領域での活用事例の紹介。
DJの事例。雰囲気が近い曲を探すためにプレイリストを機械学習させたがつまらなかった。
風景からあった音をさがす事例。CNNを2つ使い、学習ずみの画像のものとサウンド用の0からのモデル。SoundNet: MITの研究がベース
Creative Adversarial Networkではstyle ambiguity lossを使っている。
SpecGAN: GANによる音色生成。スペクトラムのAutoencoder
見たことがある論文が多かったが、実際にやっていてハマったこともよく紹介されており、知見を得られた(気がする)。
Microsoft Imagine Cupと深層学習を用いた音源分離技術について
Imagine Cup: 学生向けのITコンテスト。日本大会 => 世界大会のパス。優勝賞金 8万5000ドル
Mediated Ear: 特定の人物の音を抽出。聴覚障害者はすべての声がまざって聞こえる。single mic。
LSTMを用いたDNNモデルは、訓練データに含まれない話者の分離が難しい。Dilated CNNを使うことで短いのと長いのを同時に扱える。必要データは3分集まればよく、5分、10分でも変わらなかった。
親しい人の声をいつでも聞くことで聴力を向上させる効果がある。
BGMはともかく、多人数からどうやって話者が対象か判断するんだろう?と思ったら単にデバイスに登録する手法だった。
所感
夜のイベントで品川駅の退勤ラッシュを逆流するのがつらかった。人多すぎ。
発表者の多くが数日前に声かけられました!という感じだった。資料よく完成したなあと思う反面、プロポーザル募るカンファレンスに比べるとパッションが少し薄め?だった。