要約
大規模言語モデル (LLM) の最近の進歩により、音声テキストのマルチモーダル基礎モデルへの関心が高まっており、命令ベースの音声翻訳 (ST) で優れたパフォーマンスが達成されています。
ただし、既存の命令調整された ST システムから言語ペアを拡張するには、新しいデータセットと以前のデータセットの組み合わせで再トレーニングする必要があるため、コストがかかります。
タスク演算を使用して、新しい言語ペアでトレーニングされたモデルと既存のモデルをマージすることで、新しい言語ペアを拡張することを提案します。
ST にタスク演算を直接適用すると、マージされたモデルが命令に従わなくなることがわかりました。
したがって、誤った言語での翻訳が生成されます。
言語の混乱を解消するために、追加の言語制御モデルをマージする拡張タスク算術手法を提案します。
指示に従って正しいターゲット言語トークンを生成するようにトレーニングされます。
私たちの実験は、私たちが提案した言語制御モデルが、言語の混乱を排除することによって言語拡張を達成できることを示しています。
MuST-C および CoVoST-2 の実験では、それぞれ最大 4.66 および 4.92 の BLEU スコアの改善が示されました。
さらに、タスク算術フレームワークの使用を、ペアになった ST トレーニング データも事前トレーニングされた ST モデルも利用できない言語ペアに拡張できることを示します。
まず、タスクアナロジーを介して機械翻訳 (MT) システムから ST システムを合成し、次に合成された ST システムを既存の ST モデルにマージします。
要約(オリジナル)
Recent advances in large language models (LLMs) have gained interest in speech-text multimodal foundation models, achieving strong performance on instruction-based speech translation (ST). However, expanding language pairs from an existing instruction-tuned ST system is costly due to the necessity of re-training on a combination of new and previous datasets. We propose to expand new language pairs by merging the model trained on new language pairs and the existing model, using task arithmetic. We find that the direct application of task arithmetic for ST causes the merged model to fail to follow instructions; thus, generating translation in incorrect languages. To eliminate language confusion, we propose an augmented task arithmetic method that merges an additional language control model. It is trained to generate the correct target language token following the instructions. Our experiments demonstrate that our proposed language control model can achieve language expansion by eliminating language confusion. In our MuST-C and CoVoST-2 experiments, it shows up to 4.66 and 4.92 BLEU scores improvement, respectively. In addition, we demonstrate the use of our task arithmetic framework can expand to a language pair where neither paired ST training data nor a pre-trained ST model is available. We first synthesize the ST system from machine translation (MT) systems via task analogy, then merge the synthesized ST system to the existing ST model.
arxiv情報
著者 | Yao-Fei Cheng,Hayato Futami,Yosuke Kashiwagi,Emiru Tsunoo,Wen Shen Teo,Siddhant Arora,Shinji Watanabe |
発行日 | 2024-09-17 15:25:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google