要約
タイトル:大規模言語モデルを用いた多言語機械翻訳:実証的結果と分析
要約:
– 大規模言語モデル(Large language models、LLMs)は多言語機械翻訳(MMT)において素晴らしい潜在的能力を示している。
– LLMsによるMMTの利点と課題を2つの質問に答えて体系的に調査する。
– 1)LLMsは多数の言語を翻訳する際にどの程度高い性能を発揮するか?
– 2)LLMsの翻訳における性能にはどのような要因が影響するか?
– XGLM、OPT、BLOOMZ、ChatGPTといった人気のあるLLMsを102言語に対して評価する。
– ChatGPTが最も優れたモデルであるにも関わらず、83.33%の翻訳方向で、 supervised baseline NLLBに遅れを取ることが示された。
– さらなる分析により、LLMsはMMTに使用される際に新しい作業パターンが発生することがわかった。
– 第一に、文脈における例文が与えられた場合、プロンプトの意味を無視してもLLMsは強力な性能を発揮することができる意外なことがある。
– 第二に、異なる言語ペアの例文よりも、クロスリンガルの例文の方が低リソースの翻訳においてより優れたタスク指示を提供することができることがわかった。
– 第三に、公共データセットを評価に使用する際の潜在的なリスクを示す存在することがわかった。Specifically、BLOOMZの性能がデータセットFlores-101で過大評価されていることが観察された。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable potential in handling multilingual machine translation (MMT). In this paper, we systematically investigate the advantages and challenges of LLMs for MMT by answering two questions: 1) How well do LLMs perform in translating a massive number of languages? 2) Which factors affect LLMs’ performance in translation? We evaluate popular LLMs, including XGLM, OPT, BLOOMZ, and ChatGPT, on 102 languages. Our empirical results show that even the best model ChatGPT still lags behind the supervised baseline NLLB in 83.33% of translation directions. Through further analysis, we discover that LLMs exhibit new working patterns when used for MMT. First, prompt semantics can surprisingly be ignored when given in-context exemplars, where LLMs still show strong performance even with unreasonable prompts. Second, cross-lingual exemplars can provide better task instruction for low-resource translation than exemplars in the same language pairs. Third, we observe the overestimated performance of BLOOMZ on dataset Flores-101, indicating the potential risk when using public datasets for evaluation.
arxiv情報
著者 | Wenhao Zhu,Hongyi Liu,Qingxiu Dong,Jingjing Xu,Lingpeng Kong,Jiajun Chen,Lei Li,Shujian Huang |
発行日 | 2023-04-10 15:51:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI