要約
この記事では、検索された生成(RAG)の幻覚を自動的に検出するための評価モデルを調査し、6つのRAGアプリケーションにわたるパフォーマンスの包括的なベンチマークを提示します。
私たちの研究に含まれる方法には、LLM-as-a-Judge、Prometheus、Lynx、The Hughes Hallucination Evaluation Model(HHEM)、および信頼できる言語モデル(TLM)が含まれます。
これらのアプローチはすべて参照フリーであり、誤ったLLM応答をキャッチするために地上の真実の回答/ラベルを必要としません。
私たちの研究は、多様なRAGアプリケーション全体で、これらのアプローチのいくつかは、高精度/リコールで誤ったRAG応答を一貫して検出することを明らかにしています。
要約(オリジナル)
This article surveys Evaluation models to automatically detect hallucinations in Retrieval-Augmented Generation (RAG), and presents a comprehensive benchmark of their performance across six RAG applications. Methods included in our study include: LLM-as-a-Judge, Prometheus, Lynx, the Hughes Hallucination Evaluation Model (HHEM), and the Trustworthy Language Model (TLM). These approaches are all reference-free, requiring no ground-truth answers/labels to catch incorrect LLM responses. Our study reveals that, across diverse RAG applications, some of these approaches consistently detect incorrect RAG responses with high precision/recall.
arxiv情報
著者 | Ashish Sardana |
発行日 | 2025-04-07 16:49:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google