Learn and Don’t Forget: Adding a New Language to ASR Foundation Models

要約

Foundation ASR モデルは多くの場合、多くの言語をサポートします。
Whisper では 100 の言語に対応。
ただし、元の言語セットのパフォーマンスを維持しながら、通常はリソースが少ない追加の言語を統合する作業は限られています。
微調整は簡単ですが、元のセットの精度が低下する可能性があります。
適応パラメータを利用する 3 つのアプローチを比較します。ソフト言語コード チューニング、言語コードのみをトレーニングします。
ソフト プロンプト チューニング、先頭に追加されたトークンのトレーニング。
LoRA では、追加パラメータの小さなセットが最適化されます。
Elastic Weight Consolidation (EWC) は、特定のターゲット言語でのパフォーマンスを維持する可能性を備えた別の妥協案を提供します。
結果は、直接微調整すると新しい言語で最高のパフォーマンスが得られるものの、既存の言語機能が低下することがわかりました。
EWC は、特定の言語についてこの問題に対処できます。
適応パラメータのみが使用される場合、言語機能は維持されますが、新しい言語でのパフォーマンスが犠牲になります。

要約(オリジナル)

Foundation ASR models often support many languages, e.g. 100 languages in Whisper. However, there has been limited work on integrating an additional, typically low-resource, language, while maintaining performance on the original language set. Fine-tuning, while simple, may degrade the accuracy of the original set. We compare three approaches that exploit adaptation parameters: soft language code tuning, train only the language code; soft prompt tuning, train prepended tokens; and LoRA where a small set of additional parameters are optimised. Elastic Weight Consolidation (EWC) offers an alternative compromise with the potential to maintain performance in specific target languages. Results show that direct fine-tuning yields the best performance for the new language but degrades existing language capabilities. EWC can address this issue for specific languages. If only adaptation parameters are used, the language capabilities are maintained but at the cost of performance in the new language.

arxiv情報

著者 Mengjie Qian,Siyuan Tang,Rao Ma,Kate M. Knill,Mark J. F. Gales
発行日 2024-07-09 12:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク