Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models

要約

機械翻訳のトレーニング パラダイムは、広範な並列コーパスを使用したニューラル機械翻訳 (NMT) モデルの学習から、高品質の翻訳ペアを使用した多言語大規模言語モデル (LLM) での命令の微調整へと徐々に移行してきました。
このペーパーでは、ゼロショット翻訳の方向に重点を置き、LLM の多対多の多言語翻訳を強化することに焦点を当てています。
微調整中に採用されるプロンプト戦略がゼロショット翻訳にとって重要であることを実証し、異なる言語間の表現のギャップを埋めてゼロショット翻訳のパフォーマンスを向上させるために、言語間一貫性正則化 XConST を導入します。
XConST は新しい方法ではなく、LLM を使用した変換命令の微調整に適応した CrossConST (Gao et al., 2023a) のバージョンです。
ALMA (Xu et al., 2023)、Tower (Team, 2024)、および LLaMA-2 (Touvron et al., 2023) に関する実験結果は、私たちのアプローチが翻訳パフォーマンスを一貫して向上させることを示しています。
私たちの実装は https://github.com/gpengzhi/CrossConST-LLM で入手できます。

要約(オリジナル)

The training paradigm for machine translation has gradually shifted, from learning neural machine translation (NMT) models with extensive parallel corpora to instruction finetuning on multilingual large language models (LLMs) with high-quality translation pairs. In this paper, we focus on boosting many-to-many multilingual translation of LLMs with an emphasis on zero-shot translation directions. We demonstrate that prompt strategies adopted during finetuning are crucial to zero-shot translation and introduce a cross-lingual consistency regularization, XConST, to bridge the representation gap among different languages and improve zero-shot translation performance. XConST is not a new method, but a version of CrossConST (Gao et al., 2023a) adapted for translation instruction finetuning with LLMs. Experimental results on ALMA (Xu et al., 2023), Tower (Team, 2024), and LLaMA-2 (Touvron et al., 2023) show that our approach consistently improves translation performance. Our implementations are available at https://github.com/gpengzhi/CrossConST-LLM.

arxiv情報

著者 Pengzhi Gao,Zhongjun He,Hua Wu,Haifeng Wang
発行日 2024-02-07 08:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク