Lower Layers Matter: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused

要約

大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて卓越した性能を発揮してきた。しかし、LLMは時として不正確で事実に反する出力を生成することがあり、これは一般に「幻覚」と呼ばれる現象である。この問題に取り組むため、最近の研究では、元のモデルと幻覚を誘発した素人モデルとの対比的解読が検討され、有望な結果が得られている。しかしながら、このアプローチは、粗いコントラストと単純な減算操作により、オリジナルのLLMの出力分布を乱す可能性があり、潜在的にエラーにつながる可能性がある。本論文では、LOL (LOwer Layer Matters)と呼ばれる新しいコントラストデコーディングフレームワークを紹介する。最終層のみに注目する先行手法とは異なり、我々のアプローチは、コントラスト復号時に多層フュージョンを可能にするために、下位層からのコントラスト情報を統合する。さらに、指示ガイダンスを活用した真実性リフォーカスモジュールを組み込むことで、対比的デコーディングにおける真実性をさらに向上させる。一般に公開されている4つのデータセットを用いた広範な実験により、LOLフレームワークが、ほとんどの場合において既存のベースラインを凌駕しながら、幻覚を大幅に軽減することが実証された。再現性を確保するために、我々のコードとデータを公開する予定である。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional performance across various natural language processing tasks. However, they occasionally generate inaccurate and counterfactual outputs, a phenomenon commonly referred to as ‘hallucinations”. To tackle this issue, recent studies have explored contrastive decoding between the original model and an amateur model with induced hallucination, showing promising results. Nevertheless, this approach can disrupt the original LLM’s output distribution due to coarse contrast and simple subtraction operations, potentially leading to errors. In this paper, we introduce a novel contrastive decoding framework, termed LOL (LOwer Layer Matters). Unlike prior methods that focus solely on the final layer, our approach integrates contrastive information from lower layers to enable multi-layer fusion during contrastive decoding. Additionally, we incorporate a truthfulness refocused module that leverages instruction guidance to further improve truthfulness in contrastive decoding. Extensive experiments on four publicly available datasets demonstrate that the LOL framework significantly mitigates hallucination while outperforming existing baselines in most cases. For reproducibility, we will release our code and data upon acceptance.

arxiv情報

著者 Dingwei Chen,Feiteng Fang,Shiwen Ni,Feng Liang,Xiping Hu,Ahmadreza Argha,Hamid Alinejad-Rokny,Min Yang,Chengming Li
発行日 2025-06-03 15:05:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク