HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection

要約

大規模な言語モデル(LLM)がハイステークスドメインでますます展開されているため、証拠のサポートに基づいていない幻覚コンテンツ$ \ unicode {x2013} $テキストを検出します$ \ unicode {x2013} $は重要な課題になりました。
幻覚検出のための既存のベンチマークは、しばしば合成的に生成され、抽出的な質問応答に狭く焦点を当てており、マルチドキュメントコンテキストとフルセンテンス出力を含む実際のシナリオの複雑さをキャプチャできません。
さまざまなドメインと形式の例を含む、多様なタスクと存在するデータセットであるHallumixベンチマークを紹介します。
このベンチマークを使用して、7つの幻覚検出システム$ \ unicode {x2013} $の両方のオープンソースと閉じたソース$ \ unicode {x2013} $の両方を評価します。
私たちの分析は、短いコンテキストと長いコンテキストの間のかなりのパフォーマンスの格差を強調しており、現実世界の検索拡張生成(RAG)の実装に重大な影響を与えます。
商の検出は、0.82の精度と0.84の精度で最高の全体的なパフォーマンスを達成します。

要約(オリジナル)

As large language models (LLMs) are increasingly deployed in high-stakes domains, detecting hallucinated content$\unicode{x2013}$text that is not grounded in supporting evidence$\unicode{x2013}$has become a critical challenge. Existing benchmarks for hallucination detection are often synthetically generated, narrowly focused on extractive question answering, and fail to capture the complexity of real-world scenarios involving multi-document contexts and full-sentence outputs. We introduce the HalluMix Benchmark, a diverse, task-agnostic dataset that includes examples from a range of domains and formats. Using this benchmark, we evaluate seven hallucination detection systems$\unicode{x2013}$both open and closed source$\unicode{x2013}$highlighting differences in performance across tasks, document lengths, and input representations. Our analysis highlights substantial performance disparities between short and long contexts, with critical implications for real-world Retrieval Augmented Generation (RAG) implementations. Quotient Detections achieves the best overall performance, with an accuracy of 0.82 and an F1 score of 0.84.

arxiv情報

著者 Deanna Emery,Michael Goitia,Freddie Vargus,Iulia Neagu
発行日 2025-05-01 13:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク