algonote

There's More Than One Way To Do It

ICASSP2019音声&音響論文読み会メモ #icassp2019jp

ICASSP2019音声&音響論文読み会に参加しました。

ICASSPの概要と音声合成・声質変換における最新動向

今年のICASSPはイギリスで行われた。発表状況はUS, Chinaに続き日本は3番。

音声生成だとWaveNetの高速化が多かった。音声変換ではone-to-oneの品質があがっているが、1000文使用している。

ENHANCING HYBRID SELF-ATTENTION STRUCTURE WITH RELATIVE-POSITION-AWARE BIAS FOR SPEECH SYNTHESIS

seq-to-seq+attentionをするためにRelative-position-aware biasを導入。Self-attentionでは位置情報を定義上持っていないため従来はposition encodingを使用していた。

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS

docs.google.com

手法を比較する際にサンプリング周波数が異なると比較できない。sin波を反転してもメルスペクトログラムは同じであり、逆変換は難しい。

逆関数を持つNeural Netを使うのがWaveGlowの特徴。例えば普通のニューラルネットはReLUを使うと逆変換できない。

ICASSP2019における音声認識の最新技術動向

DNN-HMM音声認識では音響モデルと言語モデルが別々に用意されている。RNN TransducerはCTCの中間層の入力に1つ前の予測ラベルが追加。

Deep KWS: 1 stageはclientで2値分類、2 stage目はサーバーで分類

STREAMING END-TO-END SPEECH RECOGNITION FOR MOBILE DEVICES

Googleの著者20名の論文。All-NeuralのEnd-to-End音声認識を実用性能でスマホ上で動作させた。

RNN-Transducerはストリーム処理ができ、Predictionも使う。LSTMにProjectionを追加、stateのcaching、量子化などでパフォーマンス改善。

ICASSP 2019での音響信号処理分野の世界動向

  • 音源分離・強調
    線形フィルタリング: マイクへの到達時間の差を使う
    wsj0-mix: 音源分離のデータセット
    Voice Bank + Demand: 音源強調のデータセット

  • 音環境理解
    簡単なbaselineは公開されている。ラベル付けが難しい。

THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION

  • Deep Clustering: バイナリマスク推定
  • Chimera++ Network: DC + 目的音源の誤差
  • PhaseNet:: 位相推定を量子化された位相のクラス分類問題とみなす
  • Phasebook: PhaseNet+量子化位相の重み付け和

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

BLSTM=>LSTMで精度大幅劣化するためLatency-controlled BLSTMで遅延時間削減、Teacher-student学習で分離精度劣化低減

TIME-FREQUENCY-BIN-WISE SWITCHING OF MINIMUM VARIANCE DISTORTIONLESS RESPONSE BEAMFORMER FOR UNDERDETERMINED SITUATIONS

  • 劣決定問題: マイク数が音源数より少ない DUET
  • 決定: IRLMA, ICA
  • 優決定: OverIVA

時間周波数スイッチングビームフォーマ: 複数のビームフォーマを用意して切り替える。それを同時最適化問題として再定式化した。

所感

音声特化の勉強会めずらしいのでありがたい。

テーマごとに発表がグルーピングされており、最初に概要説明があるスタイルで初心者キラー感が薄くてよかった。