Evaluating Evaluation Metrics — The Mirage of Hallucination Detection

要約

幻覚は、言語モデルの信頼性と広範な採用に大きな障害をもたらしますが、それらの正確な測定は依然として持続的な課題です。
忠実さと事実の懸念を評価するために、多くのタスクおよびドメイン固有のメトリックが提案されていますが、これらのメトリックの堅牢性と一般化はまだテストされていません。
この論文では、4つのデータセットにわたって6つの多様な幻覚検出メトリック、5つの家族から37の言語モデル、5つのデコード方法の大規模な経験的評価を実施します。
私たちの広範な調査は、現在の幻覚評価のギャップに関するギャップを明らかにしています。メトリックはしばしば人間の判断と整合し、問題を明白に近視の見方をし、パラメータースケーリングと一貫性のない利益を示します。
勇気づけられると、LLMベースの評価は、特にGPT-4では、全体的な全体的な結果が得られ、モードを求めるデコード方法は、特に知識に基づいた設定で幻覚を減らすようです。
これらの調査結果は、幻覚を理解して定量化するためのより堅牢なメトリックの必要性と、それらを緩和するためのより良い戦略の必要性を強調しています。

要約(オリジナル)

Hallucinations pose a significant obstacle to the reliability and widespread adoption of language models, yet their accurate measurement remains a persistent challenge. While many task- and domain-specific metrics have been proposed to assess faithfulness and factuality concerns, the robustness and generalization of these metrics are still untested. In this paper, we conduct a large-scale empirical evaluation of 6 diverse sets of hallucination detection metrics across 4 datasets, 37 language models from 5 families, and 5 decoding methods. Our extensive investigation reveals concerning gaps in current hallucination evaluation: metrics often fail to align with human judgments, take an overtly myopic view of the problem, and show inconsistent gains with parameter scaling. Encouragingly, LLM-based evaluation, particularly with GPT-4, yields the best overall results, and mode-seeking decoding methods seem to reduce hallucinations, especially in knowledge-grounded settings. These findings underscore the need for more robust metrics to understand and quantify hallucinations, and better strategies to mitigate them.

arxiv情報

著者 Atharva Kulkarni,Yuan Zhang,Joel Ruben Antony Moniz,Xiou Ge,Bo-Hsiang Tseng,Dhivya Piraviperumal,Swabha Swayamdipta,Hong Yu
発行日 2025-04-25 06:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク