要約
音声からテキストへの直接翻訳システムは、データ不足という重大な欠点に直面します。
一般的な解決策は、自動音声認識に関してエンコーダを事前トレーニングすることで構成されているため、トレーニング プロセスの効率が失われます。
この研究では、事前トレーニングされたエンコーダ、従来のアプローチ、および最初からトレーニングされたエンコーダを使用したシステムのトレーニング ダイナミクスを比較します。
トレーニング全体を通じて、ランダムに初期化されたモデルが音声入力からの情報を予測に組み込むのに苦労していることがわかります。
したがって、この問題は、直接音声翻訳のためにエンコーダを効果的にトレーニングすることが難しいことに起因していると仮説を立てています。
スクラッチからトレーニングされたモデルは音響モデリングとセマンティック モデリングを同時に学習する必要がありますが、事前トレーニングされたモデルは後者だけに集中できます。
これらの発見に基づいて、トレーニングの初期のステップからのソース情報を統合するために、デコーダーのクロスアテンションに微妙な変更を加えることを提案します。
この変更により、ゼロからトレーニングしたモデルが、トレーニング時間を短縮しながら、事前トレーニングしたモデルと同等のパフォーマンスを達成できることを示します。
要約(オリジナル)
Direct speech-to-text translation systems encounter an important drawback in data scarcity. A common solution consists on pretraining the encoder on automatic speech recognition, hence losing efficiency in the training process. In this study, we compare the training dynamics of a system using a pretrained encoder, the conventional approach, and one trained from scratch. We observe that, throughout the training, the randomly initialized model struggles to incorporate information from the speech inputs for its predictions. Hence, we hypothesize that this issue stems from the difficulty of effectively training an encoder for direct speech translation. While a model trained from scratch needs to learn acoustic and semantic modeling simultaneously, a pretrained one can just focus on the latter. Based on these findings, we propose a subtle change in the decoder cross-attention to integrate source information from earlier steps in training. We show that with this change, the model trained from scratch can achieve comparable performance to the pretrained one, while reducing the training time.
arxiv情報
著者 | Belen Alastruey,Gerard I. Gállego,Marta R. Costa-jussà |
発行日 | 2024-09-26 16:46:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google