DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations

要約

大規模言語モデル (LLM) は、提供されたコンテキストを誤って伝えたり、内部知識を誤って思い出したりすることで、幻覚を起こし、不誠実または事実に反する出力を生成することがよくあります。
最近の研究では、関連するコンテキスト情報の抽出を担当する、検索ヘッドとして知られる Transformer アーキテクチャ内の特定のアテンション ヘッドが特定されました。
我々は、これらの検索ヘッドをマスクすると幻覚を誘発する可能性があり、ベース LLM とマスクされた LLM の出力を対比させることで幻覚を軽減できると仮説を立てます。
この目的を達成するために、我々は、コンテキストとモデルのパラメーターで見つかった情報を増幅する、トレーニング不要の新しいデコード戦略である Decoding by Contrasting Retrieval Heads (DeCoRe) を提案します。
DeCoRe は、条件付きエントロピーをガイドとして使用し、ベース LLM とマスク LLM の出力を動的に対比させることにより、潜在的な幻覚反応を軽減します。
私たちの広範な実験により、要約(XSum 18.6%)、指示のフォロー(MemoTrap 10.9%)、オープンブック質問応答(NQ-Open 2.4% および NQ など)など、高い文脈の忠実性を必要とするタスクのパフォーマンスが DeCoRe によって大幅に向上することが確認されました。
-5.5% のスワップ)。

要約(オリジナル)

Large Language Models (LLMs) often hallucinate, producing unfaithful or factually incorrect outputs by misrepresenting the provided context or incorrectly recalling internal knowledge. Recent studies have identified specific attention heads within the Transformer architecture, known as retrieval heads, responsible for extracting relevant contextual information. We hypothesise that masking these retrieval heads can induce hallucinations and that contrasting the outputs of the base LLM and the masked LLM can reduce hallucinations. To this end, we propose Decoding by Contrasting Retrieval Heads (DeCoRe), a novel training-free decoding strategy that amplifies information found in the context and model parameters. DeCoRe mitigates potentially hallucinated responses by dynamically contrasting the outputs of the base LLM and the masked LLM, using conditional entropy as a guide. Our extensive experiments confirm that DeCoRe significantly improves performance on tasks requiring high contextual faithfulness, such as summarisation (XSum by 18.6%), instruction following (MemoTrap by 10.9%), and open-book question answering (NQ-Open by 2.4% and NQ-Swap by 5.5%).

arxiv情報

著者 Aryo Pradipta Gema,Chen Jin,Ahmed Abdulaal,Tom Diethe,Philip Teare,Beatrice Alex,Pasquale Minervini,Amrutha Saseendran
発行日 2024-10-24 15:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク