Lynx: An Open Source Hallucination Evaluation Model

要約

検索拡張生成 (RAG) 技術は、大規模言語モデル (LLM) における幻覚を軽減することを目的としています。
ただし、LLM は、サポートされていない情報や、取得したコンテキストと矛盾する情報を生成する可能性があります。
困難な現実世界の幻覚シナリオに対して高度な推論が可能な SOTA 幻覚検出 LLM である LYNX を紹介します。
LYNX を評価するために、さまざまな現実世界のドメインから取得した 15,000 のサンプルで構成される包括的な幻覚評価ベンチマークである HaluBench を紹介します。
私たちの実験結果は、LYNX が HaluBench 上の GPT-4o、Claude-3-Sonnet、およびクローズドおよびオープンソースの LLM-as-a-judge モデルよりも優れていることを示しています。
LYNX、HaluBench、および評価コードを一般公開します。

要約(オリジナル)

Retrieval Augmented Generation (RAG) techniques aim to mitigate hallucinations in Large Language Models (LLMs). However, LLMs can still produce information that is unsupported or contradictory to the retrieved contexts. We introduce LYNX, a SOTA hallucination detection LLM that is capable of advanced reasoning on challenging real-world hallucination scenarios. To evaluate LYNX, we present HaluBench, a comprehensive hallucination evaluation benchmark, consisting of 15k samples sourced from various real-world domains. Our experiment results show that LYNX outperforms GPT-4o, Claude-3-Sonnet, and closed and open-source LLM-as-a-judge models on HaluBench. We release LYNX, HaluBench and our evaluation code for public access.

arxiv情報

著者 Selvan Sunitha Ravi,Bartosz Mielczarek,Anand Kannappan,Douwe Kiela,Rebecca Qian
発行日 2024-07-11 13:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク