要約
モデルはクリーンなサンプルで元のパフォーマンスを維持するだけでなく、小さな体積の摂動や大きなドメインのシフトの下でも一貫した有効性を達成する必要があるため、実用的に堅牢な自動音声認識 (ASR) の開発は困難です。
この問題に対処するために、新しい WavAugment Guided Phoneme Adversarial Training (wapat) を提案します。
wapat は、音素空間内の敵対的な例を拡張として使用して、音素表現のわずかな変動に対してモデルを不変にし、クリーンなサンプルでのパフォーマンスを維持します。
さらに、wapat は拡張サンプルの音素表現を利用して敵対者の生成をガイドします。これは、より安定した多様な勾配方向を見つけるのに役立ち、結果として一般化が向上します。
広範な実験により、エンドツーエンド音声チャレンジ ベンチマーク (ESB) における wapat の有効性が実証されています。
特に、SpeechLM-wapat は ESB 上で 6.28% の WER 削減により元のモデルを上回り、新しい最先端の性能を達成しています。
要約(オリジナル)
Developing a practically-robust automatic speech recognition (ASR) is challenging since the model should not only maintain the original performance on clean samples, but also achieve consistent efficacy under small volume perturbations and large domain shifts. To address this problem, we propose a novel WavAugment Guided Phoneme Adversarial Training (wapat). wapat use adversarial examples in phoneme space as augmentation to make the model invariant to minor fluctuations in phoneme representation and preserve the performance on clean samples. In addition, wapat utilizes the phoneme representation of augmented samples to guide the generation of adversaries, which helps to find more stable and diverse gradient-directions, resulting in improved generalization. Extensive experiments demonstrate the effectiveness of wapat on End-to-end Speech Challenge Benchmark (ESB). Notably, SpeechLM-wapat outperforms the original model by 6.28% WER reduction on ESB, achieving the new state-of-the-art.
arxiv情報
著者 | Gege Qi,Yuefeng Chen,Xiaofeng Mao,Xiaojun Jia,Ranjie Duan,Rong Zhang,Hui Xue |
発行日 | 2023-07-24 03:07:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google