要約
この論文では、機械翻訳 (MT) タスクのコンテキストで大規模言語モデル (LLM) の翻訳機能を強化する戦略に関する研究を紹介します。
この論文では、広範な単一言語データを使用した二次事前トレーニング、インターリニア テキスト形式のドキュメントを使用した継続的事前トレーニング、教師付き微調整のためのソース言語の一貫した命令の活用という 3 つの段階で構成される新しいパラダイムを提案しています。
LLM に関するこれまでの研究は、教師あり微調整 (SFT) のためのさまざまな戦略に焦点を当てていましたが、その有効性は限定的でした。
従来の機械翻訳アプローチは膨大な量の並列バイリンガル データに依存していますが、私たちのパラダイムでは、より小規模な高品質バイリンガル データ セットを使用することの重要性を強調しています。
私たちは、SFT 中に広範なバイリンガル データのみに依存するのではなく、事前トレーニング中に LLM の言語間の調整能力を強化することに重点を置くべきであると主張します。
Llama2 モデル、特に単言語拡張後の中国語 Llama2 を使用して実施された実験結果は、LLM の翻訳能力の向上を示しています。
私たちのアプローチの重要な貢献は、ステージ 2: インターリニア テキスト形式ドキュメントを使用した継続的な事前トレーニングにあり、必要なトレーニング データが 1B 未満であるため、メソッドが非常に効率的になります。
さらに、Stage3 では、ソース言語と一貫した命令を設定することが、監視付き微調整プロセスに利益をもたらすことを観察しました。
実験結果は、パラメータ数がわずか 7B または 13B と大幅に少ないにもかかわらず、私たちのアプローチが以前の研究を上回り、NLLB-54B や GPT3.5-text-davinci-003 などのモデルと比較して優れたパフォーマンスを達成することを示しています。
この成果により、私たちの手法は機械翻訳の分野における先駆的な戦略として確立されました。
要約(オリジナル)
This paper presents a study on strategies to enhance the translation capabilities of large language models (LLMs) in the context of machine translation (MT) tasks. The paper proposes a novel paradigm consisting of three stages: Secondary Pre-training using Extensive Monolingual Data, Continual Pre-training with Interlinear Text Format Documents, and Leveraging Source-Language Consistent Instruction for Supervised Fine-Tuning. Previous research on LLMs focused on various strategies for supervised fine-tuning (SFT), but their effectiveness has been limited. While traditional machine translation approaches rely on vast amounts of parallel bilingual data, our paradigm highlights the importance of using smaller sets of high-quality bilingual data. We argue that the focus should be on augmenting LLMs’ cross-lingual alignment abilities during pre-training rather than solely relying on extensive bilingual data during SFT. Experimental results conducted using the Llama2 model, particularly on Chinese-Llama2 after monolingual augmentation, demonstrate the improved translation capabilities of LLMs. A significant contribution of our approach lies in Stage2: Continual Pre-training with Interlinear Text Format Documents, which requires less than 1B training data, making our method highly efficient. Additionally, in Stage3, we observed that setting instructions consistent with the source language benefits the supervised fine-tuning process. Experimental results demonstrate that our approach surpasses previous work and achieves superior performance compared to models such as NLLB-54B and GPT3.5-text-davinci-003, despite having a significantly smaller parameter count of only 7B or 13B. This achievement establishes our method as a pioneering strategy in the field of machine translation.
arxiv情報
著者 | Jiaxin Guo,Hao Yang,Zongyao Li,Daimeng Wei,Hengchao Shang,Xiaoyu Chen |
発行日 | 2024-04-15 06:34:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google