要約
生成的な大手言語モデル(LLMS)がコンテキスト内学習を実行する能力は、さまざまな自然言語処理タスクのモデルを促進する最善の方法について、多くの研究を生み出しています。
機械翻訳(MT)は、特に翻訳する文に意味的に類似している場合、コンテキスト内の例の恩恵を受けることが示されています。
この論文では、素朴な少数のMTを類似性ベースのデモンストレーションに置き換えるために、新しいLLMベースの翻訳パラダイム、組成翻訳を提案します。
LLMは、文を単純なフレーズに分解し、取得したデモンストレーションの助けを借りて各フレーズを翻訳するために使用されます。
最後に、LLMは、自己生成されたフレーズ翻訳ペアの助けを借りて、最初の文を翻訳するように求められます。
私たちの直感は、これらの短いフレーズは本質的に翻訳が簡単で、関連する例と一致しやすいため、このアプローチは翻訳を改善する必要があるということです。
これは、リソースの少ないシナリオでは特に有益であり、より一般的には選択プールが小さいかドメインがない場合はいつでも有益です。
構成翻訳は、Flores 200、Ntrex 128、Tico-19を含む幅広い人気のMTベンチマークでLLM翻訳のパフォーマンスを高めることを示しています。
コードと出力はhttps://github.com/armelrandy/compositional-translationで入手できます
要約(オリジナル)
The ability of generative large language models (LLMs) to perform in-context learning has given rise to a large body of research into how best to prompt models for various natural language processing tasks. Machine Translation (MT) has been shown to benefit from in-context examples, in particular when they are semantically similar to the sentence to translate. In this paper, we propose a new LLM-based translation paradigm, compositional translation, to replace naive few-shot MT with similarity-based demonstrations. An LLM is used to decompose a sentence into simpler phrases, and then to translate each phrase with the help of retrieved demonstrations. Finally, the LLM is prompted to translate the initial sentence with the help of the self-generated phrase-translation pairs. Our intuition is that this approach should improve translation because these shorter phrases should be intrinsically easier to translate and easier to match with relevant examples. This is especially beneficial in low-resource scenarios, and more generally whenever the selection pool is small or out of domain. We show that compositional translation boosts LLM translation performance on a wide range of popular MT benchmarks, including FLORES 200, NTREX 128 and TICO-19. Code and outputs are available at https://github.com/ArmelRandy/compositional-translation
arxiv情報
著者 | Armel Zebaze,Benoît Sagot,Rachel Bawden |
発行日 | 2025-03-06 15:37:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google