Lower Layer Matters: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって優れたパフォーマンスを示していますが、時折、事実が不正確または期待される出力と一致しないコンテンツ、つまり経験的に「幻覚」と呼ばれる現象を生成する傾向があります。
この問題に取り組むために、最近の研究では、オリジナルのモデルと幻覚を誘発したアマチュアモデルとの間の対照的なデコーディングが調査され、有望な結果が示されています。
それにもかかわらず、この方法は、粗いコントラストと単純な減算演算によって元の LLM の出力分布を損なう可能性があり、場合によってはエラーが発生する可能性があります。
この論文では、LOL (LOWer Layer Matters) と呼ばれる新しい対照的デコーディング フレームワークを紹介します。
私たちのアプローチには、オリジナルのモデルとアマチュアモデルの間の最終層と下位層の両方のコントラストデコードを連結することが含まれており、それによって幻覚の軽減に役立つ多層融合を実現します。
さらに、コンテキスト ガイダンスを活用して事実のエンコードを強化し、対比デコード中に真実性をさらに捕捉する、真実性に再焦点を当てたモジュールを組み込んでいます。
2 つの公的に利用可能なデータセットに対して行われた広範な実験は、私たちが提案する LOL フレームワークが、ほとんどの場合に既存のベースラインを上回りながら、幻覚を大幅に軽減できることを示しています。
最良のベースラインと比較すると、TruthfulQA のすべての指標で平均 4.5 ポイント向上しています。
ソースコードは近日公開予定です。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional performance across various natural language processing tasks, yet they occasionally tend to yield content that factually inaccurate or discordant with the expected output, a phenomenon empirically referred to as ‘hallucination’. To tackle this issue, recent works have investigated contrastive decoding between the original model and an amateur model with induced hallucination, which has shown promising results. Nonetheless, this method may undermine the output distribution of the original LLM caused by its coarse contrast and simplistic subtraction operation, potentially leading to errors in certain cases. In this paper, we introduce a novel contrastive decoding framework termed LOL (LOwer Layer Matters). Our approach involves concatenating the contrastive decoding of both the final and lower layers between the original model and the amateur model, thereby achieving multi-layer fusion to aid in the mitigation of hallucination. Additionally, we incorporate a truthfulness refocused module that leverages contextual guidance to enhance factual encoding, further capturing truthfulness during contrastive decoding. Extensive experiments conducted on two publicly available datasets illustrate that our proposed LOL framework can substantially alleviate hallucination while surpassing existing baselines in most cases. Compared with the best baseline, we improve by average 4.5 points on all metrics of TruthfulQA. The source code is coming soon.

arxiv情報

著者 Dingwei Chen,Feiteng Fang,Shiwen Ni,Feng Liang,Ruifeng Xu,Min Yang,Chengming Li
発行日 2024-08-16 14:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク