ICASSP2019音声&音響論文読み会に参加しました。
ICASSPの概要と音声合成・声質変換における最新動向
今年のICASSPはイギリスで行われた。発表状況はUS, Chinaに続き日本は3番。
音声生成だとWaveNetの高速化が多かった。音声変換ではone-to-oneの品質があがっているが、1000文使用している。
ENHANCING HYBRID SELF-ATTENTION STRUCTURE WITH RELATIVE-POSITION-AWARE BIAS FOR SPEECH SYNTHESIS
seq-to-seq+attentionをするためにRelative-position-aware biasを導入。Self-attentionでは位置情報を定義上持っていないため従来はposition encodingを使用していた。
WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS
手法を比較する際にサンプリング周波数が異なると比較できない。sin波を反転してもメルスペクトログラムは同じであり、逆変換は難しい。
逆関数を持つNeural Netを使うのがWaveGlowの特徴。例えば普通のニューラルネットはReLUを使うと逆変換できない。
ICASSP2019における音声認識の最新技術動向
DNN-HMM音声認識では音響モデルと言語モデルが別々に用意されている。RNN TransducerはCTCの中間層の入力に1つ前の予測ラベルが追加。
Deep KWS: 1 stageはclientで2値分類、2 stage目はサーバーで分類
STREAMING END-TO-END SPEECH RECOGNITION FOR MOBILE DEVICES
Googleの著者20名の論文。All-NeuralのEnd-to-End音声認識を実用性能でスマホ上で動作させた。
RNN-Transducerはストリーム処理ができ、Predictionも使う。LSTMにProjectionを追加、stateのcaching、量子化などでパフォーマンス改善。
ICASSP 2019での音響信号処理分野の世界動向
音源分離・強調
線形フィルタリング: マイクへの到達時間の差を使う
wsj0-mix: 音源分離のデータセット
Voice Bank + Demand: 音源強調のデータセット音環境理解
簡単なbaselineは公開されている。ラベル付けが難しい。
THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION
- Deep Clustering: バイナリマスク推定
- Chimera++ Network: DC + 目的音源の誤差
- PhaseNet:: 位相推定を量子化された位相のクラス分類問題とみなす
- Phasebook: PhaseNet+量子化位相の重み付け和
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
BLSTM=>LSTMで精度大幅劣化するためLatency-controlled BLSTMで遅延時間削減、Teacher-student学習で分離精度劣化低減
TIME-FREQUENCY-BIN-WISE SWITCHING OF MINIMUM VARIANCE DISTORTIONLESS RESPONSE BEAMFORMER FOR UNDERDETERMINED SITUATIONS
- 劣決定問題: マイク数が音源数より少ない DUET
- 決定: IRLMA, ICA
- 優決定: OverIVA
時間周波数スイッチングビームフォーマ: 複数のビームフォーマを用意して切り替える。それを同時最適化問題として再定式化した。
所感
音声特化の勉強会めずらしいのでありがたい。
テーマごとに発表がグルーピングされており、最初に概要説明があるスタイルで初心者キラー感が薄くてよかった。