On Early Detection of Hallucinations in Factual Question Answering

要約

大規模言語モデル (LLM) は、人間の膨大なタスクを支援するために大きく進歩しましたが、幻覚は依然としてユーザーの信頼を得る上での大きな障害となっています。
幻覚があるときでもモデル生成の流暢性と一貫性により、検出は困難になります。
この研究では、モデル世代に関連付けられたアーティファクトが、その世代に幻覚が含まれるというヒントを提供できるかどうかを調査します。
具体的には、1) 統合勾配ベースのトークン属性による入力、2) ソフトマックス確率による出力、3) オープンエンドでの幻覚の兆候に対する自己注意および完全接続層の活性化による内部状態で LLM を調査します。
質問に答えるタスク。
私たちの結果は、これらのアーチファクトの分布が幻覚のある世代とない世代の間で異なる傾向があることを示しています。
この洞察に基づいて、これらのアーティファクトを入力特徴として使用してモデル生成を幻覚と非幻覚に分類するバイナリ分類器をトレーニングします。
これらの幻覚分類器は、最大 $0.80$ AUROC を達成します。
また、幻覚に先立つトークンがその後の幻覚を、それが起こる前からすでに予測できることも示します。

要約(オリジナル)

While large language models (LLMs) have taken great strides towards helping humans with a plethora of tasks, hallucinations remain a major impediment towards gaining user trust. The fluency and coherence of model generations even when hallucinating makes detection a difficult task. In this work, we explore if the artifacts associated with the model generations can provide hints that the generation will contain hallucinations. Specifically, we probe LLMs at 1) the inputs via Integrated Gradients based token attribution, 2) the outputs via the Softmax probabilities, and 3) the internal state via self-attention and fully-connected layer activations for signs of hallucinations on open-ended question answering tasks. Our results show that the distributions of these artifacts tend to differ between hallucinated and non-hallucinated generations. Building on this insight, we train binary classifiers that use these artifacts as input features to classify model generations into hallucinations and non-hallucinations. These hallucination classifiers achieve up to $0.80$ AUROC. We also show that tokens preceding a hallucination can already predict the subsequent hallucination even before it occurs.

arxiv情報

著者 Ben Snyder,Marius Moisescu,Muhammad Bilal Zafar
発行日 2024-08-22 07:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク