要約
機械翻訳用の大規模言語モデル (LLM) を微調整すると、全体的な翻訳品質が向上することがわかりました。
ただし、ニューラル機械翻訳モデルには存在しない、望ましい LLM の動作 (ステアビリティ、固有の文書レベルの翻訳能力、直訳の少ない翻訳を生成する能力など) に微調整がどのような影響を与えるかは不明です。
当社では、モデル サイズが 70 億から最大 650 億のパラメータを持つ LLaMA および Falcon ファミリのモデルに対して広範な変換評価を実行します。
私たちの結果は、微調整により LLM の一般的な翻訳品質が向上する一方で、いくつかの機能が低下することを示しています。
特に、形式的なステアリングを実行する能力、数ショットの例を通じて技術翻訳を作成する能力、および文書レベルの翻訳を実行する能力の低下が観察されます。
一方で、並列データを微調整した後、モデルが生成する直訳は少なくなることがわかります。
微調整データの一部として単一言語データを含めることで、翻訳の全体的な品質を同時に向上させながら能力を維持できることを示します。
私たちの調査結果は、機械翻訳における LLM の利点を維持する微調整戦略の必要性を強調しています。
要約(オリジナル)
Fine-tuning large language models (LLMs) for machine translation has shown improvements in overall translation quality. However, it is unclear what is the impact of fine-tuning on desirable LLM behaviors that are not present in neural machine translation models, such as steerability, inherent document-level translation abilities, and the ability to produce less literal translations. We perform an extensive translation evaluation on the LLaMA and Falcon family of models with model size ranging from 7 billion up to 65 billion parameters. Our results show that while fine-tuning improves the general translation quality of LLMs, several abilities degrade. In particular, we observe a decline in the ability to perform formality steering, to produce technical translations through few-shot examples, and to perform document-level translation. On the other hand, we observe that the model produces less literal translations after fine-tuning on parallel data. We show that by including monolingual data as part of the fine-tuning data we can maintain the abilities while simultaneously enhancing overall translation quality. Our findings emphasize the need for fine-tuning strategies that preserve the benefits of LLMs for machine translation.
arxiv情報
著者 | David Stap,Eva Hasler,Bill Byrne,Christof Monz,Ke Tran |
発行日 | 2024-05-30 14:25:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google