HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

要約

ChatGPT などの大規模言語モデル (LLM) は、幻覚、つまりソースと矛盾するコンテンツや事実知識によって検証できないコンテンツを生成する傾向があります。
LLM がどのような種類のコンテンツとどの程度幻覚を起こしやすいかを理解するために、大規模言語モデル用の幻覚評価 (HELMA) ベンチマークを導入します。これは、LLM の認識および認識におけるパフォーマンスを評価するための、生成され人間による注釈が付けられた幻覚サンプルの大規模なコレクションです。
幻覚を軽減します。
これらのサンプルを生成するために、ChatGPT ベースの 2 段階のフレームワーク、つまりサンプリング、その後のフィルタリングを提案します。
具体的には、まず 2 つの異なるサンプリング方法を採用して指示に基づいて幻覚サンプルを生成し、次にサンプル強化フィルタリング方法を使用して最適な方法を選択します。
さらに、ChatGPT 応答の幻覚に注釈を付けるために人間のラベラーも雇っています。
実験結果は、ChatGPT が幻覚を生成する確率があり、既存の LLM がテキスト内の幻覚を認識する際に大きな課題に直面していることを示唆しています。
さらに、外部の知識を提供したり、推論ステップを追加したりすることで、パフォーマンスを向上させることができます。
私たちのベンチマークには https://github.com/RUCAIBox/HELMA からアクセスできます。

要約(オリジナル)

Large language models (LLMs), such as ChatGPT, are prone to generate hallucinations, \ie content that conflicts with the source or cannot be verified by the factual knowledge. To understand what types of content and to which extent LLMs are apt to hallucinate, we introduce the Hallucination Evaluation for Large Language Models (HELMA) benchmark, a large collection of generated and human-annotated hallucinated samples for evaluating the performance of LLMs in recognizing and alleviating hallucination. To generate these samples, we propose a ChatGPT-based two-step framework, \ie sampling-then-filtering. Specifically, we first adopt two different sampling methods to generate hallucinated samples based on instructions, and then use an example-enhanced filtering method to select the best one. Furthermore, we also hire some human labelers to annotate the hallucinations in ChatGPT responses. The empirical results suggest that ChatGPT has some probabilities to generate hallucinations and existing LLMs face great challenges in recognizing the hallucinations in text. In addition, the performance can be improved by providing external knowledge or adding reasoning steps. Our benchmark can be accessed at https://github.com/RUCAIBox/HELMA.

arxiv情報

著者 Junyi Li,Xiaoxue Cheng,Wayne Xin Zhao,Jian-Yun Nie,Ji-Rong Wen
発行日 2023-05-19 15:36:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク