要約
大規模言語モデル (LLM) は、検索や要約などの膨大なタスクで人間を支援する方向で大きく進歩しましたが、幻覚は依然としてユーザーの信頼を得る上での大きな障害となっています。
幻覚がある場合でもモデル生成の流暢性と一貫性により、モデルが幻覚かどうかを検出することが困難になります。
この研究では、モデル世代に関連付けられたアーティファクトが、その世代に幻覚が含まれるというヒントを提供できるかどうかを調査します。
具体的には、1) 統合勾配ベースのトークン属性による入力、2) ソフトマックス確率による出力、3) オープンエンドでの幻覚の兆候に対する自己注意および完全接続層の活性化による内部状態で LLM を調査します。
質問に答えるタスク。
私たちの結果は、これらのアーチファクトの分布が幻覚のある世代とない世代の間で異なることを示しています。
この洞察に基づいて、これらのアーティファクトを入力特徴として使用してモデル生成を幻覚と非幻覚に分類するバイナリ分類器をトレーニングします。
これらの幻覚分類器は、最大 0.80 AUROC を達成します。
さらに、幻覚に先立つトークンがその後の幻覚を発生前に予測できることを示します。
要約(オリジナル)
While large language models (LLMs) have taken great strides towards helping humans with a plethora of tasks like search and summarization, hallucinations remain a major impediment towards gaining user trust. The fluency and coherence of model generations even when hallucinating makes it difficult to detect whether or not a model is hallucinating. In this work, we explore if the artifacts associated with the model generations can provide hints that the generation will contain hallucinations. Specifically, we probe LLMs at 1) the inputs via Integrated Gradients based token attribution, 2) the outputs via the Softmax probabilities, and 3) the internal state via self-attention and fully-connected layer activations for signs of hallucinations on open-ended question answering tasks. Our results show that the distributions of these artifacts differ between hallucinated and non-hallucinated generations. Building on this insight, we train binary classifiers that use these artifacts as input features to classify model generations into hallucinations and non-hallucinations. These hallucination classifiers achieve up to 0.80 AUROC. We further show that tokens preceding a hallucination can predict the subsequent hallucination before it occurs.
arxiv情報
著者 | Ben Snyder,Marius Moisescu,Muhammad Bilal Zafar |
発行日 | 2023-12-27 20:26:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google