ICASSP2019音声＆音響論文読み会メモ #icassp2019jp

ICASSP2019音声＆音響論文読み会に参加しました。

ICASSPの概要と音声合成・声質変換における最新動向

ICASSP2019 音声＆音響読み会テーマ発表音声生成 from Kentaro Tachibana

今年のICASSPはイギリスで行われた。発表状況はUS, Chinaに続き日本は3番。

音声生成だとWaveNetの高速化が多かった。音声変換ではone-to-oneの品質があがっているが、1000文使用している。

ENHANCING HYBRID SELF-ATTENTION STRUCTURE WITH RELATIVE-POSITION-AWARE BIAS FOR SPEECH SYNTHESIS

ICASSP2019音声＆音響論文読み会論文紹介（合成系） #icassp2019jp from Tomoki Koriyama

seq-to-seq+attentionをするためにRelative-position-aware biasを導入。Self-attentionでは位置情報を定義上持っていないため従来はposition encodingを使用していた。

WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS

docs.google.com

手法を比較する際にサンプリング周波数が異なると比較できない。sin波を反転してもメルスペクトログラムは同じであり、逆変換は難しい。

逆関数を持つNeural Netを使うのがWaveGlowの特徴。例えば普通のニューラルネットはReLUを使うと逆変換できない。

ICASSP2019における音声認識の最新技術動向

ICASSP2019音声＆音響論文読み会「ICASSP2019における音声認識の最新技術動向」#yjtc #icassp2019jp from Yahoo!デベロッパーネットワーク

DNN-HMM音声認識では音響モデルと言語モデルが別々に用意されている。RNN TransducerはCTCの中間層の入力に1つ前の予測ラベルが追加。

Deep KWS: 1 stageはclientで2値分類、2 stage目はサーバーで分類

STREAMING END-TO-END SPEECH RECOGNITION FOR MOBILE DEVICES

ICASSP2019音声＆音響論文読み会論文紹介（認識系） from 貴史益子

Googleの著者20名の論文。All-NeuralのEnd-to-End音声認識を実用性能でスマホ上で動作させた。

RNN-Transducerはストリーム処理ができ、Predictionも使う。LSTMにProjectionを追加、stateのcaching、量子化などでパフォーマンス改善。

ICASSP 2019での音響信号処理分野の世界動向

ICASSP 2019での音響信号処理分野の世界動向 from Yuma Koizumi

音源分離・強調
線形フィルタリング: マイクへの到達時間の差を使う
wsj0-mix: 音源分離のデータセット
Voice Bank + Demand: 音源強調のデータセット
音環境理解
簡単なbaselineは公開されている。ラベル付けが難しい。

THE PHASEBOOK: BUILDING COMPLEX MASKS VIA DISCRETE REPRESENTATIONS FOR SOURCE SEPARATION

ICASSP2019論文読み会_PHASEBOOK from Atsushi_Ando

Deep Clustering: バイナリマスク推定
Chimera++ Network: DC + 目的音源の誤差
PhaseNet:: 位相推定を量子化された位相のクラス分類問題とみなす
Phasebook: PhaseNet+量子化位相の重み付け和

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION

TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION from RyoAIHARA1

BLSTM=>LSTMで精度大幅劣化するためLatency-controlled BLSTMで遅延時間削減、Teacher-student学習で分離精度劣化低減

TIME-FREQUENCY-BIN-WISE SWITCHING OF MINIMUM VARIANCE DISTORTIONLESS RESPONSE BEAMFORMER FOR UNDERDETERMINED SITUATIONS

ICASSP2019 音声＆音響論文読み会著者紹介2 （信号処理系2） from KoueiYamaoka

劣決定問題: マイク数が音源数より少ない DUET
決定: IRLMA, ICA
優決定: OverIVA

時間周波数スイッチングビームフォーマ: 複数のビームフォーマを用意して切り替える。それを同時最適化問題として再定式化した。

所感

音声特化の勉強会めずらしいのでありがたい。

テーマごとに発表がグルーピングされており、最初に概要説明があるスタイルで初心者キラー感が薄くてよかった。

algonote

There's More Than One Way To Do It