WixQA: A Multi-Dataset Benchmark for Enterprise Retrieval-Augmented Generation

要約

検索された生成(RAG)は、外部の知識に基づいて根拠のある回答を可能にする現代の質問応答(QA)システムの基礎です。
最近の進捗状況はオープンドメインデータセットによって推進されていますが、エンタープライズQAシステムには、ユーザーが日々のサポートシナリオで提起する具体的でドメイン固有の問題を反映するデータセットが必要です。
重要なことに、エンドツーエンドのRAGシステムを評価するには、質問だけでなく、回答が導き出された特定の知識ベース(KB)スナップショットを含むベンチマークが必要です。
このニーズに対処するために、リリースされたKBコーパスに正確に接地されたQAデータセットを特徴とするベンチマークスイートであるWixQAを紹介し、検索コンポーネントと生成コンポーネントの全体的な評価を可能にします。
WIXQAには、WIX.comのカスタマーサポートの対話から派生した3つの異なるQAデータセットが含まれ、パブリックWIXヘルプセンターKBのスナップショットに基づいています:(i)WixQA-ExpertWritten、200個の実際のユーザークエリを承認したマルチステップ回答。
(ii)ユーザーダイアログから蒸留されたWIXQAシミュレーション、200個の専門分析されたQAペア。
(iii)Wixqa-Synthetic、6,222 LLM生成QAペア。1つのペアは、知識ベースの各記事から体系的に導出されました。
MITライセンスの下でデータセットと並んでKBスナップショットをリリースし、包括的なベースライン結果を提供し、現実的なエンタープライズ環境でエンタープライズRAGシステムを評価するためのユニークなベンチマークを形成します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) is a cornerstone of modern question answering (QA) systems, enabling grounded answers based on external knowledge. Although recent progress has been driven by open-domain datasets, enterprise QA systems need datasets that mirror the concrete, domain-specific issues users raise in day-to-day support scenarios. Critically, evaluating end-to-end RAG systems requires benchmarks comprising not only question–answer pairs but also the specific knowledge base (KB) snapshot from which answers were derived. To address this need, we introduce WixQA, a benchmark suite featuring QA datasets precisely grounded in the released KB corpus, enabling holistic evaluation of retrieval and generation components. WixQA includes three distinct QA datasets derived from Wix.com customer support interactions and grounded in a snapshot of the public Wix Help Center KB: (i) WixQA-ExpertWritten, 200 real user queries with expert-authored, multi-step answers; (ii) WixQA-Simulated, 200 expert-validated QA pairs distilled from user dialogues; and (iii) WixQA-Synthetic, 6,222 LLM-generated QA pairs, with one pair systematically derived from each article in the knowledge base. We release the KB snapshot alongside the datasets under MIT license and provide comprehensive baseline results, forming a unique benchmark for evaluating enterprise RAG systems in realistic enterprise environments.

arxiv情報

著者 Dvir Cohen,Lin Burg,Sviatoslav Pykhnivskyi,Hagit Gur,Stanislav Kovynov,Olga Atzmon,Gilad Barkan
発行日 2025-05-13 15:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク