WildHallucinations: Evaluating Long-form Factuality in LLMs with Real-World Entity Queries

要約

大規模言語モデル (LLM) の幻覚が大きな課題として広く普及している一方で、事実性に関する既存の評価ベンチマークは、現実世界の LLM ユーザーが情報を求めている多様な知識領域をカバーしていません。
このギャップを埋めるために、事実を評価するベンチマークである WildHallucinations を導入します。
これは、LLM に、実際のユーザーとチャットボットの会話からマイニングされたエンティティに関する情報を生成するよう促すことによって行われます。
これらの世代は、Web 検索から収集された体系的に精選された知識ソースと照合して自動的にファクトチェックされます。
注目すべきことに、これらの現実世界のエンティティの半分には、関連する Wikipedia ページがありません。
7,919 エンティティの 15 LLM から 118,785 世代を評価します。
LLM は一貫して Wikipedia ページのないエンティティに対してより多くの幻覚を起こし、ドメインごとに異なる幻覚率を示すことがわかりました。
最後に、同じ基本モデルが与えられた場合、検索コンポーネントを追加すると、幻覚はわずかに軽減されるだけで、幻覚がなくなるわけではありません。

要約(オリジナル)

While hallucinations of large language models (LLMs) prevail as a major challenge, existing evaluation benchmarks on factuality do not cover the diverse domains of knowledge that the real-world users of LLMs seek information about. To bridge this gap, we introduce WildHallucinations, a benchmark that evaluates factuality. It does so by prompting LLMs to generate information about entities mined from user-chatbot conversations in the wild. These generations are then automatically fact-checked against a systematically curated knowledge source collected from web search. Notably, half of these real-world entities do not have associated Wikipedia pages. We evaluate 118,785 generations from 15 LLMs on 7,919 entities. We find that LLMs consistently hallucinate more on entities without Wikipedia pages and exhibit varying hallucination rates across different domains. Finally, given the same base models, adding a retrieval component only slightly reduces hallucinations but does not eliminate hallucinations.

arxiv情報

著者 Wenting Zhao,Tanya Goyal,Yu Ying Chiu,Liwei Jiang,Benjamin Newman,Abhilasha Ravichander,Khyathi Chandu,Ronan Le Bras,Claire Cardie,Yuntian Deng,Yejin Choi
発行日 2024-07-24 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク