要約
検索補強型生成(RAG)は、文脈内検索を通じてより豊かな事実文脈にアクセスできるようにすることで、大規模言語モデル(LLM)を強化し、現代の自然言語処理(NLP)の基礎となっている。単言語環境、特に英語では効果的であるが、多言語タスクでの使用は未解明である。本稿では、多言語オープンドメイン質問応答のための新しいアプローチを提案することにより、多言語にわたるRAGの有効性を調査する。我々は、検索前に質問を英語に翻訳する質問翻訳(tRAG)や、複数言語間で直接検索を行う多言語RAG(MultiRAG)など、様々な多言語RAG戦略の性能を評価する。その結果、tRAGは有用ではあるが、カバー範囲が限定されることが明らかになった。対照的に、MultiRAGは多言語検索を可能にすることで効率を向上させるが、検索されたコンテンツに言語間の差異による矛盾が生じる。これらの問題に対処するために、我々は、応答を生成する前に、検索された文書を共通言語(例えば英語)に翻訳する手法であるCrosslingual RAG(CrossRAG)を提案する。我々の実験によれば、CrossRAGは知識集約型タスクのパフォーマンスを大幅に向上させ、高リソース言語と低リソース言語の両方に恩恵をもたらす。
要約(オリジナル)
Retrieval-augmented generation (RAG) has become a cornerstone of contemporary NLP, enhancing large language models (LLMs) by allowing them to access richer factual contexts through in-context retrieval. While effective in monolingual settings, especially in English, its use in multilingual tasks remains unexplored. This paper investigates the effectiveness of RAG across multiple languages by proposing novel approaches for multilingual open-domain question-answering. We evaluate the performance of various multilingual RAG strategies, including question-translation (tRAG), which translates questions into English before retrieval, and Multilingual RAG (MultiRAG), where retrieval occurs directly across multiple languages. Our findings reveal that tRAG, while useful, suffers from limited coverage. In contrast, MultiRAG improves efficiency by enabling multilingual retrieval but introduces inconsistencies due to cross-lingual variations in the retrieved content. To address these issues, we propose Crosslingual RAG (CrossRAG), a method that translates retrieved documents into a common language (e.g., English) before generating the response. Our experiments show that CrossRAG significantly enhances performance on knowledge-intensive tasks, benefiting both high-resource and low-resource languages.
arxiv情報
著者 | Leonardo Ranaldi,Barry Haddow,Alexandra Birch |
発行日 | 2025-04-04 17:35:43+00:00 |
arxivサイト | arxiv_id(pdf) |