Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis

要約

タイトル: 大規模言語モデルによる多言語機械翻訳:実証結果と分析
要約:
– 大規模言語モデル(LLMs)は多言語機械翻訳(MMT)の処理において驚異的な可能性を示している。
– 本論文では、以下の2つの質問に答えることで、LLMsのMMTへの利点と課題を体系的に調査する。1)LLMsは大量の言語をどの程度翻訳できるか?2)LLMsの翻訳パフォーマンスに影響を与える要因は何か?
– XGLM、OPT、BLOOMZ、ChatGPTなどの人気のあるLLMsを102の言語で評価する。
– 実証結果によると、最高レベルのモデルであるChatGPTでも、83.33%の翻訳方向で教師ありベースラインのNLLBに遅れを取ることが示された。
– さらに分析することで、LLMsがMMTに使用された場合、新しい作業パターンが現れることが発見された。第一に、文脈の中での例示が与えられた場合、プロンプトの意味は驚くほど無視でき、不合理なプロンプトでもLLMsは強力なパフォーマンスを示す。第二に、異なる言語ペアの例示が、同じ言語ペアの例示よりも低リソースの翻訳のためにより良いタスク指示を提供することができる。第三に、データセットFlores-101におけるBLOOMZの過大評価を観察し、公開データセットを評価に使用する場合の潜在的なリスクを示した。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable potential in handling multilingual machine translation (MMT). In this paper, we systematically investigate the advantages and challenges of LLMs for MMT by answering two questions: 1) How well do LLMs perform in translating a massive number of languages? 2) Which factors affect LLMs’ performance in translation? We evaluate popular LLMs, including XGLM, OPT, BLOOMZ, and ChatGPT, on 102 languages. Our empirical results show that even the best model ChatGPT still lags behind the supervised baseline NLLB in 83.33% of translation directions. Through further analysis, we discover that LLMs exhibit new working patterns when used for MMT. First, prompt semantics can surprisingly be ignored when given in-context exemplars, where LLMs still show strong performance even with unreasonable prompts. Second, cross-lingual exemplars can provide better task instruction for low-resource translation than exemplars in the same language pairs. Third, we observe the overestimated performance of BLOOMZ on dataset Flores-101, indicating the potential risk when using public datasets for evaluation.

arxiv情報

著者 Wenhao Zhu,Hongyi Liu,Qingxiu Dong,Jingjing Xu,Shujian Huang,Lingpeng Kong,Jiajun Chen,Lei Li
発行日 2023-05-02 02:23:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク