Real-Time Evaluation Models for RAG: Who Detects Hallucinations Best?

要約

この記事では、検索された生成(RAG)の幻覚を自動的に検出するための評価モデルを調査し、6つのRAGアプリケーションにわたるパフォーマンスの包括的なベンチマークを提示します。
私たちの研究に含まれる方法には、LLM-as-a-Judge、Prometheus、Lynx、The Hughes Hallucination Evaluation Model(HHEM)、および信頼できる言語モデル(TLM)が含まれます。
これらのアプローチはすべて参照フリーであり、誤ったLLM応答をキャッチするために地上の真実の回答/ラベルを必要としません。
私たちの研究は、多様なRAGアプリケーション全体で、これらのアプローチのいくつかは、高精度/リコールで誤ったRAG応答を一貫して検出することを明らかにしています。

要約(オリジナル)

This article surveys Evaluation models to automatically detect hallucinations in Retrieval-Augmented Generation (RAG), and presents a comprehensive benchmark of their performance across six RAG applications. Methods included in our study include: LLM-as-a-Judge, Prometheus, Lynx, the Hughes Hallucination Evaluation Model (HHEM), and the Trustworthy Language Model (TLM). These approaches are all reference-free, requiring no ground-truth answers/labels to catch incorrect LLM responses. Our study reveals that, across diverse RAG applications, some of these approaches consistently detect incorrect RAG responses with high precision/recall.

arxiv情報

著者 Ashish Sardana
発行日 2025-04-07 16:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク