要約
生成的大規模言語モデル(LLM)が文脈内学習を行うことができることから、様々な自然言語処理タスクに最適なモデルのあり方に関する研究が盛んに行われている。本稿では、機械翻訳(MT)に焦点を当てる。機械翻訳(MT)は、文脈内の翻訳例から恩恵を受けることが示されているタスクである。しかし、どのように例文を選択するのが最適かについての体系的な研究は発表されておらず、ランダムな選択よりも類似性に基づいた選択の有用性については様々な結果が報告されている。我々は、複数のLLMと複数の文脈内文例検索ストラテジーを網羅し、多言語文埋め込みを比較した研究を提供する。我々は、言語資源の異なるレベル(英語からフランス語、ドイツ語、スワヒリ語、ウォロフ語)を表す複数の言語方向をカバーする。以前に発表された結果とは対照的に、文埋め込み類似度が、特に低リソース言語方向においてMTを改善できることを発見し、選択プールの多様性と品質のバランスについて議論する。また、LLMベースのMTの評価における潜在的な問題を明らかにし、COMETメトリックをLLMの評価に適応させることで、より適切な評価プロトコルを提案する。コードと出力は、https://github.com/ArmelRandy/ICL-MT で自由に利用できる。
要約(オリジナル)
The ability of generative large language models (LLMs) to perform in-context learning has given rise to a large body of research into how best to prompt models for various natural language processing tasks. In this paper, we focus on machine translation (MT), a task that has been shown to benefit from in-context translation examples. However no systematic studies have been published on how best to select examples, and mixed results have been reported on the usefulness of similarity-based selection over random selection. We provide a study covering multiple LLMs and multiple in-context example retrieval strategies, comparing multilingual sentence embeddings. We cover several language directions, representing different levels of language resourcedness (English into French, German, Swahili and Wolof). Contrarily to previously published results, we find that sentence embedding similarity can improve MT, especially for low-resource language directions, and discuss the balance between selection pool diversity and quality. We also highlight potential problems with the evaluation of LLM-based MT and suggest a more appropriate evaluation protocol, adapting the COMET metric to the evaluation of LLMs. Code and outputs are freely available at https://github.com/ArmelRandy/ICL-MT.
arxiv情報
著者 | Armel Zebaze,Benoît Sagot,Rachel Bawden |
発行日 | 2024-08-01 09:07:32+00:00 |
arxivサイト | arxiv_id(pdf) |