要約
大規模言語モデル (LLM) は、並列データなしでトレーニングした場合でも、多言語ニューラル機械翻訳 (MNMT) において驚くほど優れたパフォーマンスを示しました。
しかし、トレーニング データの量が膨大であるという事実にもかかわらず、特にリソースの少ない言語では、希少な単語の翻訳に依然として苦労しています。
さらに悪いことに、LLM 上の低リソース言語を使用してコンテキスト内学習に関連するデモンストレーションを取得することは通常非現実的であり、翻訳における LLM の実際の使用が制限されます。この問題をどのように軽減する必要があるでしょうか。
この目的を達成するために、我々は、LLM の翻訳能力を引き出すために、入力単語のサブセットに対する多言語辞書のチェーンを使用して事前知識を備えた LLM を強化する新しい方法を提案します。
広範な実験により、ChatGPT を CoD で強化すると、FLORES-200 フル開発テスト セットで MNMT の chrF++ ポイントが最大 13 倍 (キリル文字で書かれた英語からセルビア語の場合は 3.08 ~ 42.63) の大きなゲインが得られることが示されています。
さらに、多言語辞書の連鎖の重要性と、低リソース言語の少数ショット デモンストレーションに対する CoD の優位性を示します。
要約(オリジナル)
Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation — how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x chrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.
arxiv情報
著者 | Hongyuan Lu,Haoran Yang,Haoyang Huang,Dongdong Zhang,Wai Lam,Furu Wei |
発行日 | 2024-07-10 09:53:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google