HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

要約

ChatGPT などの大規模言語モデル (LLM) は、幻覚、つまりソースと矛盾するコンテンツや事実知識によって検証できないコンテンツを生成する傾向があります。
LLM がどのような種類のコンテンツで、どの程度幻覚を起こしやすいかを理解するために、大規模言語モデル用の幻覚評価 (HaluEval) ベンチマークを導入します。これは、幻覚を認識する際の LLM のパフォーマンスを評価するための、生成され人間による注釈が付けられた幻覚サンプルの大規模なコレクションです。

これらのサンプルを生成するために、ChatGPT ベースの 2 段階のフレームワーク、つまりサンプリング、その後のフィルタリングを提案します。
さらに、ChatGPT 応答の幻覚に注釈を付けるために人間のラベラーも雇っています。
実証結果は、ChatGPT が検証不可能な情報 (\つまり約 $11.4\%$ のユーザー クエリ) を捏造することによって、特定のトピックで幻覚コンテンツを生成する可能性が高いことを示唆しています。
さらに、既存の LLM は、テキスト内の幻覚を認識するという大きな課題に直面しています。
一方、私たちの実験では、外部知識を提供したり推論ステップを追加したりすることで幻覚認識を改善できることも証明しています。
私たちのベンチマークには https://github.com/RUCAIBox/HaluEval からアクセスできます。

要約(オリジナル)

Large language models (LLMs), such as ChatGPT, are prone to generate hallucinations, \ie content that conflicts with the source or cannot be verified by the factual knowledge. To understand what types of content and to which extent LLMs are apt to hallucinate, we introduce the Hallucination Evaluation for Large Language Models (HaluEval) benchmark, a large collection of generated and human-annotated hallucinated samples for evaluating the performance of LLMs in recognizing hallucination. To generate these samples, we propose a ChatGPT-based two-step framework, \ie sampling-then-filtering. Besides, we also hire some human labelers to annotate the hallucinations in ChatGPT responses. The empirical results suggest that ChatGPT is likely to generate hallucinated content in specific topics by fabricating unverifiable information (\ie about $11.4\%$ user queries). Moreover, existing LLMs face great challenges in recognizing the hallucinations in texts. While, our experiments also prove that the hallucination recognition can be improved by providing external knowledge or adding reasoning steps. Our benchmark can be accessed at https://github.com/RUCAIBox/HaluEval.

arxiv情報

著者 Junyi Li,Xiaoxue Cheng,Wayne Xin Zhao,Jian-Yun Nie,Ji-Rong Wen
発行日 2023-05-22 13:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク