Retrieval-Augmented Generation with Conflicting Evidence

要約

大規模な言語モデル(LLM)エージェントは、回答の事実性を改善するために、検索された生成(RAG)をますます採用しています。
ただし、実際には、これらのシステムは、曖昧なユーザークエリと複数のソースからの潜在的に矛盾する情報を処理する必要があることが多く、騒々しいまたは無関係なドキュメントからの不正確な情報を抑制する必要があります。
以前の研究は一般に、これらの課題を単独で研究し、対処してきました。これは、騒音や誤報に対する曖昧さや堅牢性など、一度に1つの側面のみを考慮しています。
代わりに、複数の要因を同時に検討し、(i)ramdocs(曖昧さと誤った情報の検索とドキュメントの誤った情報)を提案します。これは、あいまいさ、誤った情報、ノイズなど、ユーザークエリの矛盾する証拠の複雑で現実的なシナリオをシミュレートする新しいデータセットです。
(ii)Madam-Ragは、LLMエージェントが複数のラウンドでの回答のメリットについて議論するマルチエージェントアプローチであり、アグリゲーターが誤った情報と騒音を破棄しながら、乱用されたエンティティに対応する応答を照合し、それによって紛争の多様なソースを共同で処理できるようにする。
Ambigdocsで閉じたオープンソースモデルの両方を使用してMadam-Ragの有効性を実証します。これは、あいまいなクエリにすべての有効な回答を提示する必要がありますが、最大11.40%とWaithevalで強力なRagベースラインを改善します。
さらに、Ramdocsは既存のRAGベースラインに課題をもたらすことがわかります(Llama3.3-70B-Instructは32.60の正確な一致スコアのみを取得します)。
Madam-Ragはこれらの矛盾する要因に対処し始めますが、分析は、特に証拠を支持し、誤った情報を支持する際の不均衡のレベルを高める場合、実質的なギャップが残っていることを示しています。

要約(オリジナル)

Large language model (LLM) agents are increasingly employing retrieval-augmented generation (RAG) to improve the factuality of their responses. However, in practice, these systems often need to handle ambiguous user queries and potentially conflicting information from multiple sources while also suppressing inaccurate information from noisy or irrelevant documents. Prior work has generally studied and addressed these challenges in isolation, considering only one aspect at a time, such as handling ambiguity or robustness to noise and misinformation. We instead consider multiple factors simultaneously, proposing (i) RAMDocs (Retrieval with Ambiguity and Misinformation in Documents), a new dataset that simulates complex and realistic scenarios for conflicting evidence for a user query, including ambiguity, misinformation, and noise; and (ii) MADAM-RAG, a multi-agent approach in which LLM agents debate over the merits of an answer over multiple rounds, allowing an aggregator to collate responses corresponding to disambiguated entities while discarding misinformation and noise, thereby handling diverse sources of conflict jointly. We demonstrate the effectiveness of MADAM-RAG using both closed and open-source models on AmbigDocs — which requires presenting all valid answers for ambiguous queries — improving over strong RAG baselines by up to 11.40% and on FaithEval — which requires suppressing misinformation — where we improve by up to 15.80% (absolute) with Llama3.3-70B-Instruct. Furthermore, we find that RAMDocs poses a challenge for existing RAG baselines (Llama3.3-70B-Instruct only obtains 32.60 exact match score). While MADAM-RAG begins to address these conflicting factors, our analysis indicates that a substantial gap remains especially when increasing the level of imbalance in supporting evidence and misinformation.

arxiv情報

著者 Han Wang,Archiki Prasad,Elias Stengel-Eskin,Mohit Bansal
発行日 2025-04-17 16:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク