SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

要約

GPT-3 などの生成大規模言語モデル (LLM) は、さまざまなユーザー プロンプトに対して非常に流暢な応答を生成できます。
ただし、LLM は事実を幻覚したり、事実に基づかない発言をしたりすることが知られており、その結果、出力の信頼性が損なわれる可能性があります。
既存のファクトチェック手法では、出力確率分布 (ChatGPT などのシステムでは利用できない場合があります) へのアクセス、または別個の (多くの場合複雑な) モジュールを介して接続される外部データベースへのアクセスが必要です。
この研究では、ゼロリソース方式、つまり外部データベースなしでブラックボックス モデルの応答をファクト チェックするために使用できる、シンプルなサンプリング ベースのアプローチである「SelfCheckGPT」を提案します。
SelfCheckGPT は、LLM が特定の概念についての知識を持っている場合、サンプリングされた応答は類似しており、一貫した事実が含まれている可能性が高いという単純な考えを利用します。
ただし、幻覚的な事実の場合、確率的にサンプリングされた応答は分岐し、互いに矛盾する可能性があります。
私たちは、GPT-3 を使用して WikiBio データセットから個人に関する文章を生成し、生成された文章の事実性に手動で注釈を付けることで、このアプローチを調査します。
私たちは、SelfCheckGPT が以下のことができることを実証します。 i) 非事実および事実の文章を検出します。
ii) 事実の観点から文章をランク付けします。
私たちのアプローチをいくつかのベースラインと比較し、グレーボックス法と比較して、私たちのアプローチが文章レベルの幻覚検出においてかなり高いAUC-PRスコアと文章レベルの事実性評価においてより高い相関スコアを持っていることを示します。

要約(オリジナル)

Generative Large Language Models (LLMs) such as GPT-3 are capable of generating highly fluent responses to a wide variety of user prompts. However, LLMs are known to hallucinate facts and make non-factual statements which can undermine trust in their output. Existing fact-checking approaches either require access to the output probability distribution (which may not be available for systems such as ChatGPT) or external databases that are interfaced via separate, often complex, modules. In this work, we propose ‘SelfCheckGPT’, a simple sampling-based approach that can be used to fact-check the responses of black-box models in a zero-resource fashion, i.e. without an external database. SelfCheckGPT leverages the simple idea that if an LLM has knowledge of a given concept, sampled responses are likely to be similar and contain consistent facts. However, for hallucinated facts, stochastically sampled responses are likely to diverge and contradict one another. We investigate this approach by using GPT-3 to generate passages about individuals from the WikiBio dataset, and manually annotate the factuality of the generated passages. We demonstrate that SelfCheckGPT can: i) detect non-factual and factual sentences; and ii) rank passages in terms of factuality. We compare our approach to several baselines and show that our approach has considerably higher AUC-PR scores in sentence-level hallucination detection and higher correlation scores in passage-level factuality assessment compared to grey-box methods.

arxiv情報

著者 Potsawee Manakul,Adian Liusie,Mark J. F. Gales
発行日 2023-10-11 17:43:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク