HalluCounter: Reference-free LLM Hallucination Detection in the Wild!

要約

応答の一貫性に基づいて、参照フリーの幻覚検出(RFHD)メソッドは、Grey-Boxモデルが通常依存しているが、クローズドソースLLMSではアクセスできない生成確率や勾配などの内部モデルの状態に依存しません。
ただし、クエリ応答アライメントパターンをキャプチャできないと、検出精度が低下することがよくあります。
さらに、ほとんどの既存のデータセットのサイズと範囲が限られているため、多様なドメインにまたがる大規模なベンチマークデータセットの欠如は依然として課題です。
この目的のために、Hallucounterを提案します。これは、応答とクエリの応答の一貫性とアライメントパターンの両方を利用する新しい参照のない幻覚検出方法です。
これにより、幻覚を検出し、ユーザークエリに自信スコアと最適な応答を提供する分類子のトレーニングが可能になります。
さらに、複数のドメインにわたって合成的に生成されたサンプルとヒューマンキュレーションされたサンプルの両方を含むベンチマークデータセットであるHalucounterevalを紹介します。
私たちの方法は、最先端のアプローチよりも大きなマージンを上回り、データセット全体の幻覚検出に90以上の平均信頼を達成します。

要約(オリジナル)

Response consistency-based, reference-free hallucination detection (RFHD) methods do not depend on internal model states, such as generation probabilities or gradients, which Grey-box models typically rely on but are inaccessible in closed-source LLMs. However, their inability to capture query-response alignment patterns often results in lower detection accuracy. Additionally, the lack of large-scale benchmark datasets spanning diverse domains remains a challenge, as most existing datasets are limited in size and scope. To this end, we propose HalluCounter, a novel reference-free hallucination detection method that utilizes both response-response and query-response consistency and alignment patterns. This enables the training of a classifier that detects hallucinations and provides a confidence score and an optimal response for user queries. Furthermore, we introduce HalluCounterEval, a benchmark dataset comprising both synthetically generated and human-curated samples across multiple domains. Our method outperforms state-of-the-art approaches by a significant margin, achieving over 90\% average confidence in hallucination detection across datasets.

arxiv情報

著者 Ashok Urlana,Gopichand Kanumolu,Charaka Vinayak Kumar,Bala Mallikarjunarao Garlapati,Rahul Mishra
発行日 2025-03-06 16:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク