On the Consistency of Multilingual Context Utilization in Retrieval-Augmented Generation

要約

大規模な言語モデル(LLMS)を使用した検索された生成(RAG)は、コーパスから取得された関連するパッセージを活用することにより、多言語質問(QA)タスクで強力なパフォーマンスを実証しました。
多言語RAG(MRAG)では、検索されたパッセージはユーザーが入力したクエリ以外の言語で記述でき、LLMSが提供された情報を効果的に利用することが困難になります。
最近の調査では、多言語のコーパスから文章を取得することで、特に低リソース言語の場合、ぼろのパフォーマンスが向上する可能性があることが示唆されています。
ただし、LLMがさまざまな種類の多言語コンテキストを活用して正確な回答を生成できる範囲は、 *検索品質から独立して、依然として考えられていません。
この論文では、(i)その言語に関係なく関連する箇所を一貫して使用するLLMSの能力の広範な評価を実施し、(ii)予想される言語で応答し、(iii)複数の「気を散らす」異なる言語でのパッセージがコンテキストで提供されている場合でも、関連する箇所に焦点を当てます。
合計48の言語をカバーする3つのQAデータセットにわたって4つのLLMを使用した実験により、LLMが驚くべき能力が驚くべき能力を明らかにしていますが、関連する情報を実行中の文章から抽出しますが、正しい言語で完全な回答を策定するはるかに弱い能力です。
私たちの分析は、精度と特徴の属性技術の両方に基づいており、気を散らすパッセージが言語に関係なく答えの質に悪影響を与えることをさらに示しています。
ただし、クエリ言語のディストラクタは、わずかに強い影響を及ぼします。
まとめると、私たちの調査結果は、LLMSがMRAGシステムでコンテキストをどのように利用するかについての理解を深め、将来の改善の方向性を提供します。

要約(オリジナル)

Retrieval-augmented generation (RAG) with large language models (LLMs) has demonstrated strong performance in multilingual question-answering (QA) tasks by leveraging relevant passages retrieved from corpora. In multilingual RAG (mRAG), the retrieved passages can be written in languages other than that of the query entered by the user, making it challenging for LLMs to effectively utilize the provided information. Recent research suggests that retrieving passages from multilingual corpora can improve RAG performance, particularly for low-resource languages. However, the extent to which LLMs can leverage different kinds of multilingual contexts to generate accurate answers, *independently from retrieval quality*, remains understudied. In this paper, we conduct an extensive assessment of LLMs’ ability to (i) make consistent use of a relevant passage regardless of its language, (ii) respond in the expected language, and (iii) focus on the relevant passage even when multiple `distracting’ passages in different languages are provided in the context. Our experiments with four LLMs across three QA datasets covering a total of 48 languages reveal a surprising ability of LLMs to extract the relevant information from out-language passages, but a much weaker ability to formulate a full answer in the correct language. Our analysis, based on both accuracy and feature attribution techniques, further shows that distracting passages negatively impact answer quality regardless of their language. However, distractors in the query language exert a slightly stronger influence. Taken together, our findings deepen the understanding of how LLMs utilize context in mRAG systems, providing directions for future improvements.

arxiv情報

著者 Jirui Qi,Raquel Fernández,Arianna Bisazza
発行日 2025-04-08 12:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク