Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions

要約

ChatGPT や GPT4 などの大規模な事前トレーニング済み言語モデル (LLM) は、対訳コーパスで明示的にトレーニングしなくても、多言語翻訳で強力な能力を示しています。
LLM がさまざまな言語への翻訳指示を実行する能力をどのようにして獲得するのかは興味深いです。
この論文では、与えられた指示に従って多言語翻訳を実行するために、多言語の事前トレーニング済み言語モデル XGLM-7B を微調整することによる詳細な分析を紹介します。
まず、多言語 LLM が以前に実証されたよりも強力な翻訳能力を備えていることを示します。
特定の言語のパフォーマンスは、英語との類似性と、事前トレーニング段階で使用されるデータの量によって異なります。
第二に、LLM が翻訳指示を実行できるかどうかは、翻訳指示の理解と、異なる言語間の連携に依存していることがわかりました。
多言語の微調整により、LLM は、命令調整フェーズでは認識されなかった言語ペアであっても、翻訳タスクを適切に実行する方法を学習できます。

要約(オリジナル)

Large-scale Pretrained Language Models (LLMs), such as ChatGPT and GPT4, have shown strong abilities in multilingual translations, without being explicitly trained on parallel corpora. It is interesting how the LLMs obtain their ability to carry out translation instructions for different languages. In this paper, we present a detailed analysis by finetuning a multilingual pretrained language model, XGLM-7B, to perform multilingual translation following given instructions. Firstly, we show that multilingual LLMs have stronger translation abilities than previously demonstrated. For a certain language, the performance depends on its similarity to English and the amount of data used in the pretraining phase. Secondly, we find that LLMs’ ability to carry out translation instructions relies on the understanding of translation instructions and the alignment among different languages. With multilingual finetuning, LLMs could learn to perform the translation task well even for those language pairs unseen during the instruction tuning phase.

arxiv情報

著者 Jiahuan Li,Hao Zhou,Shujian Huang,Shanbo Cheng,Jiajun Chen
発行日 2024-04-15 06:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク