Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation

要約

タイトル:自動音声認識と翻訳における最小限の努力データ拡張によるデータの最大化

要約:
– データ拡張とは既存のデータに基づいて新しいトレーニングデータを生成する技術です。
– 原本のデータ例を連結して新しいトレーニングインスタンスを構築することのシンプルかつコスト効率を評価しました。
– このような拡張されたデータとの継続的なトレーニングにより、元のデータのみに最適化されたTransformerとConformerモデルを改善できます。
– LibriSpeech-960hのテストセット(test-cleanとtest-otherのWERがそれぞれ2.83と6.87)でかなりの改善が観察され、これは浅いフュージョンを持つモデル(WER 2.55と6.27)にも引き継がれます。
– 継続的なトレーニングの方法は、4つの非英語の言語のCoVoST-2のASR部分で最大0.9 WERの改善をもたらし、改善は元のトレーニングデータのサイズに大きく依存することが観察されました。
– 比較した連結戦略の中で、改善を実現するためにスピーカー情報が必要ないことがわかりました。
– 最後に、2つのデータセットでの実証実験により、この方法が音声翻訳タスクにも適用できることを示しました。

要約(オリジナル)

Data augmentation is a technique to generate new training data based on existing data. We evaluate the simple and cost-effective method of concatenating the original data examples to build new training instances. Continued training with such augmented data is able to improve off-the-shelf Transformer and Conformer models that were optimized on the original data only. We demonstrate considerable improvements on the LibriSpeech-960h test sets (WER 2.83 and 6.87 for test-clean and test-other), which carry over to models combined with shallow fusion (WER 2.55 and 6.27). Our method of continued training also leads to improvements of up to 0.9 WER on the ASR part of CoVoST-2 for four non English languages, and we observe that the gains are highly dependent on the size of the original training data. We compare different concatenation strategies and found that our method does not need speaker information to achieve its improvements. Finally, we demonstrate on two datasets that our methods also works for speech translation tasks.

arxiv情報

著者 Tsz Kin Lam,Shigehiko Schamoni,Stefan Riezler
発行日 2023-04-14 14:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク