RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions

要約

会話型 AI エージェントは、検索拡張生成 (RAG) を使用して、ユーザーの問い合わせに対して検証可能な文書に基づいた応答を提供します。
ただし、多くの自然な質問には適切な答えがありません。約 25\% には誤った仮定が含まれています~\cite{Yu2023:CREPE}、50\% 以上は曖昧です~\cite{Min2020:AmbigQA}。
RAG エージェントは、わかりにくい質問への応答を改善するために高品質のデータを必要としています。
この論文では、特定の文書コーパスから、コンテキストに基づいた混乱を招く質問の多様なセットを効率的に作成するための、新しい合成データ生成方法を紹介します。
私たちは、RAG エージェントとしていくつかの大規模な言語モデルの経験的な比較評価を実行し、混乱の検出と適切な応答生成の精度を測定します。
私たちはベンチマーク データセットをパブリック ドメインに提供しています。

要約(オリジナル)

Conversational AI agents use Retrieval Augmented Generation (RAG) to provide verifiable document-grounded responses to user inquiries. However, many natural questions do not have good answers: about 25\% contain false assumptions~\cite{Yu2023:CREPE}, and over 50\% are ambiguous~\cite{Min2020:AmbigQA}. RAG agents need high-quality data to improve their responses to confusing questions. This paper presents a novel synthetic data generation method to efficiently create a diverse set of context-grounded confusing questions from a given document corpus. We conduct an empirical comparative evaluation of several large language models as RAG agents to measure the accuracy of confusion detection and appropriate response generation. We contribute a benchmark dataset to the public domain.

arxiv情報

著者 Zhiyuan Peng,Jinming Nian,Alexandre Evfimievski,Yi Fang
発行日 2024-10-18 16:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク