要約
大規模な言語モデル(LLM)の幻覚を検出することは、信頼性と信頼性を高めるために重要です。
ほとんどの研究は、トレーニング中に見られる情報からの逸脱として幻覚に焦点を当てています。
しかし、LLMのパラメトリック知識の不透明な性質は、生成されたテキストが根拠のないように見える理由の理解を複雑にします。LLMは、大規模でしばしばアクセスできないデータセットから必要な知識を取り上げていないか、さらなるトレーニング中に情報が変更または矛盾している可能性があります。
私たちの焦点は、トレーニングで使用されていない情報を含む幻覚にあります。これは、最新性を使用して、カットオフ日の後に情報が生まれたことを確認することで決定します。
この研究では、さまざまなLLMの異なる内部状態を使用して、文レベルでそれらを検出することにより、これらの幻覚を調査します。
これらの幻覚について分類子をトレーニングするように設計されたデータセットであるHalluragを提示します。
モデルと量子化に応じて、HalluragでトレーニングされたMLPは、最大75%のテスト精度で幻覚を検出し、Mistral-7B-Instruct-V0.1が最高のテスト精度を達成しました。
我々の結果は、IAVがCEVと同じくらい効果的に幻覚を検出し、これらのカテゴリの精度が向上した別々の分類子として、答えられない未回答のプロンプトが異なるエンコードが異なることを明らかにすることを示しています。
しかし、Halluragはいくつかの限られた一般化可能性を示し、幻覚に関するデータセットの多様性をより多く提唱しました。
要約(オリジナル)
Detecting hallucinations in large language models (LLMs) is critical for enhancing their reliability and trustworthiness. Most research focuses on hallucinations as deviations from information seen during training. However, the opaque nature of an LLM’s parametric knowledge complicates the understanding of why generated texts appear ungrounded: The LLM might not have picked up the necessary knowledge from large and often inaccessible datasets, or the information might have been changed or contradicted during further training. Our focus is on hallucinations involving information not used in training, which we determine by using recency to ensure the information emerged after a cut-off date. This study investigates these hallucinations by detecting them at sentence level using different internal states of various LLMs. We present HalluRAG, a dataset designed to train classifiers on these hallucinations. Depending on the model and quantization, MLPs trained on HalluRAG detect hallucinations with test accuracies ranging up to 75 %, with Mistral-7B-Instruct-v0.1 achieving the highest test accuracies. Our results show that IAVs detect hallucinations as effectively as CEVs and reveal that answerable and unanswerable prompts are encoded differently as separate classifiers for these categories improved accuracy. However, HalluRAG showed some limited generalizability, advocating for more diversity in datasets on hallucinations.
arxiv情報
著者 | Fabian Ridder,Malte Schilling |
発行日 | 2025-03-25 10:50:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google