HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild

要約

幻覚は、重要な領域における大規模言語モデル(LLM)の信頼性に大きな課題をもたらす。知識集約的な質問応答(QA)や要約など、従来の自然言語処理タスクにおけるLLMの幻覚を評価するために設計された最近のベンチマークは、動的な実環境におけるユーザーとLLMの複雑な相互作用を捉えるには不十分である。このギャップを解決するために、我々はHaluEval-Wildを導入します。HaluEval-Wildは、野生のLLM幻覚を評価するために特別に設計された最初のベンチマークです。ShareGPTを含む既存の実世界のユーザーとLLMのインタラクションデータセットから、挑戦的な(Alpacaによって敵対的にフィルタリングされた)ユーザークエリを丹念に収集し、様々なLLMの幻覚率を評価する。収集したクエリを分析した結果、LLMが示す幻覚の種類をきめ細かく分析できるように、クエリを5つのタイプに分類し、強力なGPT-4モデルと検索支援生成(RAG)を用いて参照回答を合成する。我々のベンチマークは、実世界の相互作用を反映したシナリオにおけるLLMの信頼性の理解と向上に向けた新しいアプローチを提供する。我々のベンチマークはhttps://github.com/Dianezzy/HaluEval-Wild。

要約(オリジナル)

Hallucinations pose a significant challenge to the reliability of large language models (LLMs) in critical domains. Recent benchmarks designed to assess LLM hallucinations within conventional NLP tasks, such as knowledge-intensive question answering (QA) and summarization, are insufficient for capturing the complexities of user-LLM interactions in dynamic, real-world settings. To address this gap, we introduce HaluEval-Wild, the first benchmark specifically designed to evaluate LLM hallucinations in the wild. We meticulously collect challenging (adversarially filtered by Alpaca) user queries from existing real-world user-LLM interaction datasets, including ShareGPT, to evaluate the hallucination rates of various LLMs. Upon analyzing the collected queries, we categorize them into five distinct types, which enables a fine-grained analysis of the types of hallucinations LLMs exhibit, and synthesize the reference answers with the powerful GPT-4 model and retrieval-augmented generation (RAG). Our benchmark offers a novel approach towards enhancing our comprehension and improvement of LLM reliability in scenarios reflective of real-world interactions. Our benchmark is available at https://github.com/Dianezzy/HaluEval-Wild.

arxiv情報

著者 Zhiying Zhu,Yiming Yang,Zhiqing Sun
発行日 2024-05-06 06:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク