Unanswerability Evaluation for Retrieval Augmented Generation

要約

検索された生成(RAG)システムの既存の評価フレームワークは、回答可能なクエリに焦点を当てていますが、適切に答えられない要求を拒否することの重要性を見落としています。
この論文では、RAGシステムが未回答のクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークであるUaeval4Ragを紹介します。
6つの未回答カテゴリの分類法を定義し、Uaeval4Ragは、未回答の比率と許容比率のメトリックを持つ特定の知識ベースの多様で挑戦的なクエリを自動的に合成します。
検索モデル、書き換え方法、再生者、言語モデル、促し戦略など、さまざまなRAGコンポーネントを使用して実験を行い、RAGシステムのパフォーマンスにおける隠れたトレードオフを明らかにします。
私たちの調査結果は、RAGシステムを最適化する際のコンポーネント選択と迅速な設計の重要な役割を強調しており、回答可能なクエリの精度と未回答の拒否率のバランスをとっています。
UAEVAL4RAGは、より堅牢で信頼性の高いRAGシステムを開発するための貴重な洞察とツールを提供します。

要約(オリジナル)

Existing evaluation frameworks for retrieval-augmented generation (RAG) systems focus on answerable queries, but they overlook the importance of appropriately rejecting unanswerable requests. In this paper, we introduce UAEval4RAG, a framework designed to evaluate whether RAG systems can handle unanswerable queries effectively. We define a taxonomy with six unanswerable categories, and UAEval4RAG automatically synthesizes diverse and challenging queries for any given knowledge base with unanswered ratio and acceptable ratio metrics. We conduct experiments with various RAG components, including retrieval models, rewriting methods, rerankers, language models, and prompting strategies, and reveal hidden trade-offs in performance of RAG systems. Our findings highlight the critical role of component selection and prompt design in optimizing RAG systems to balance the accuracy of answerable queries with high rejection rates of unanswerable ones. UAEval4RAG provides valuable insights and tools for developing more robust and reliable RAG systems.

arxiv情報

著者 Xiangyu Peng,Prafulla Kumar Choubey,Caiming Xiong,Chien-Sheng Wu
発行日 2025-02-05 18:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク