HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

要約

高品質で流暢なテキストを生成する優れた能力にもかかわらず、生成大規模言語モデル (LLM) は幻覚、つまり確立された世界の知識や提供された入力コンテキストと一致しないステートメントも生成します。
ただし、人間がモデルの生成をその場で検証するのは費用も時間もかかるため、幻覚の測定は困難な場合があります。
この研究では、(1) プログラミング、科学的帰属、要約を含む 9 つのドメインにわたる生成モデルの 10,923 個のプロンプト、(2) 分解するユースケースごとの自動高精度検証器で構成される包括的な幻覚ベンチマークである HALoGEN をリリースします。
LLM を原子単位に生成し、各単位を高品質の知識ソースと照合して検証します。
私たちはこのフレームワークを使用して、14 の言語モデルから約 150,000 世代を評価しました。その結果、最もパフォーマンスの高いモデルでさえ幻覚に満ちていることがわかりました (ドメインによっては、生成されたアトミック ファクトの最大 86% に達する場合もあります)。
さらに、LLM 幻覚がトレーニング データの誤った記憶 (タイプ A エラー) に起因するのか、トレーニング データの誤った知識 (タイプ B エラー) に起因するのか、あるいは捏造 (タイプ C エラー) に起因するのかに基づいて、LLM 幻覚の新しいエラー分類を定義します。
私たちのフレームワークが、なぜ生成モデルが幻覚を起こすのかについての原理的研究を可能にする基盤を提供し、信頼できる大規模言語モデルの開発を前進させることを願っています。

要約(オリジナル)

Despite their impressive ability to generate high-quality and fluent text, generative large language models (LLMs) also produce hallucinations: statements that are misaligned with established world knowledge or provided input context. However, measuring hallucination can be challenging, as having humans verify model generations on-the-fly is both expensive and time-consuming. In this work, we release HALoGEN, a comprehensive hallucination benchmark consisting of: (1) 10,923 prompts for generative models spanning nine domains including programming, scientific attribution, and summarization, and (2) automatic high-precision verifiers for each use case that decompose LLM generations into atomic units, and verify each unit against a high-quality knowledge source. We use this framework to evaluate ~150,000 generations from 14 language models, finding that even the best-performing models are riddled with hallucinations (sometimes up to 86% of generated atomic facts depending on the domain). We further define a novel error classification for LLM hallucinations based on whether they likely stem from incorrect recollection of training data (Type A errors), or incorrect knowledge in training data (Type B errors), or are fabrication (Type C errors). We hope our framework provides a foundation to enable the principled study of why generative models hallucinate, and advances the development of trustworthy large language models.

arxiv情報

著者 Abhilasha Ravichander,Shrusti Ghela,David Wadden,Yejin Choi
発行日 2025-01-14 18:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク