Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data

要約

本論文では、事前訓練された大規模言語モデルを並列データ上で継続的に事前訓練し、その後、少量の高品質な並列データを用いてスーパービジョンによる微調整を行う2段階の訓練アプローチを提案する。提案手法の有効性を調べるため、3.8Bパラメータのモデルと8つの異なる形式の並列データを用いて継続的な事前学習を行った。日英翻訳と英日翻訳の13のテストセットでこれらの手法を評価した。その結果、継続的な事前学習において並列データを利用する場合、原文と訳文を交互に学習することが不可欠であることが示された。さらに、継続的な事前学習データと推論との間で原文と目的文の順序が一致する翻訳方向でのみ翻訳精度が向上することを示した。さらに、LLMベースの翻訳モデルは、教師ありエンコーダデコーダモデルと比較して、話し言葉の翻訳においてより頑健であり、より少ない学習データでより高い精度を達成することを実証した。また、継続的な事前学習のためのデータが、インターリーブされた原文と訳文から構成され、原文にタグが付加されている場合に、最も高い精度が達成されることを示す。

要約(オリジナル)

In this paper, we propose a two-phase training approach where pre-trained large language models are continually pre-trained on parallel data and then supervised fine-tuned with a small amount of high-quality parallel data. To investigate the effectiveness of our proposed approach, we conducted continual pre-training with a 3.8B-parameter model and parallel data across eight different formats. We evaluate these methods on thirteen test sets for Japanese-to-English and English-to-Japanese translation. The results demonstrate that when utilizing parallel data in continual pre-training, it is essential to alternate between source and target sentences. Additionally, we demonstrated that the translation accuracy improves only for translation directions where the order of source and target sentences aligns between continual pre-training data and inference. In addition, we demonstrate that the LLM-based translation model is more robust in translating spoken language and achieves higher accuracy with less training data compared to supervised encoder-decoder models. We also show that the highest accuracy is achieved when the data for continual pre-training consists of interleaved source and target sentences and when tags are added to the source sentences.

arxiv情報

著者 Minato Kondo,Takehito Utsuro,Masaaki Nagata
発行日 2024-07-03 14:23:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク