Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation

要約

事前トレーニングと微調整は、エンドツーエンド音声翻訳 (E2E ST) におけるデータ不足の問題を軽減するためのパラダイムです。
音声データとテキスト データの間の一般的な「モダリティ ギャップ」により、事前トレーニングと微調整の間で入力の不一致が生じることがよくあります。
ただし、このギャップは微調整の初期段階で発生しますが、最終的なパフォーマンスには大きな影響を与えないことがわかります。
一方で、「キャパシティ ギャップ」と呼ばれる別のギャップがあることがわかりました。リソースの高いタスク (ASR や MT など) は、モデルがリソースの低いタスクに再利用される場合、適合するために常に大規模なモデルを必要とします。
(E2E ST)、オーバーフィッティングにより、次善のパフォーマンスが得られます。
ケーススタディでは、MuST-C データセットで en-de で 29.0、en-fr で 40.3 を達成する、適切に設計されたモダリティ適応法よりも正則化の方が重要な役割を果たしていることがわかりました。
コードとモデルは https://github.com/hannlp/TAB で入手できます。

要約(オリジナル)

Pre-training and fine-tuning is a paradigm for alleviating the data scarcity problem in end-to-end speech translation (E2E ST). The commonplace ‘modality gap’ between speech and text data often leads to inconsistent inputs between pre-training and fine-tuning. However, we observe that this gap occurs in the early stages of fine-tuning, but does not have a major impact on the final performance. On the other hand, we find that there has another gap, which we call the ‘capacity gap’: high resource tasks (such as ASR and MT) always require a large model to fit, when the model is reused for a low resource task (E2E ST), it will get a sub-optimal performance due to the over-fitting. In a case study, we find that the regularization plays a more important role than the well-designed modality adaption method, which achieves 29.0 for en-de and 40.3 for en-fr on the MuST-C dataset. Code and models are available at https://github.com/hannlp/TAB.

arxiv情報

著者 Yuchen Han,Chen Xu,Tong Xiao,Jingbo Zhu
発行日 2023-06-13 09:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク