DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer

要約

この研究では、マルチモーダル大規模言語モデル (MLLM) における幻覚を軽減するために設計された新しいアプローチである DOPRA を紹介します。
通常、高価な補足トレーニング データや外部知識ソースの統合を必要とする既存のソリューションとは異なり、DOPRA は、特定の重み付けレイヤー ペナルティと再配布をデコードすることで幻覚に革新的に対処し、追加のリソースを必要とせずに経済的で効果的なソリューションを提供します。
DOPRA は、MLLM 内の幻覚を制御する固有のメカニズム、特に自己注意マトリックス内の要約トークンのサブセットに過度に依存し、重要な画像関連情報を無視するモデルの傾向に対する独自の洞察に基づいています。
この現象は特定の層で特に顕著です。
この過剰依存に対抗するために、DOPRA は、重み付けされたオーバーレイ ペナルティと、デコード プロセス中に 12 番目のレイヤーなどの特定のレイヤーで再分配する戦略を採用しています。
さらに、DOPRA には、生成されたトークンのシーケンスを再検査する遡及的割り当てプロセスが含まれており、アルゴリズムが実際の画像コンテンツとよりよく一致するようにトークンの選択を再割り当てできるようになり、それによって自動生成されたキャプションにおける幻覚的な説明の発生率が減少します。
全体として、DOPRA は、デコード プロセス中に的を絞った調整を通じて体系的に幻覚を低減することにより、MLLM の出力品質を向上させる上で重要な前進を示しています。

要約(オリジナル)

In this work, we introduce DOPRA, a novel approach designed to mitigate hallucinations in multi-modal large language models (MLLMs). Unlike existing solutions that typically involve costly supplementary training data or the integration of external knowledge sources, DOPRA innovatively addresses hallucinations by decoding specific weighted layer penalties and redistribution, offering an economical and effective solution without additional resources. DOPRA is grounded in unique insights into the intrinsic mechanisms controlling hallucinations within MLLMs, especially the models’ tendency to over-rely on a subset of summary tokens in the self-attention matrix, neglecting critical image-related information. This phenomenon is particularly pronounced in certain strata. To counteract this over-reliance, DOPRA employs a strategy of weighted overlay penalties and redistribution in specific layers, such as the 12th layer, during the decoding process. Furthermore, DOPRA includes a retrospective allocation process that re-examines the sequence of generated tokens, allowing the algorithm to reallocate token selection to better align with the actual image content, thereby reducing the incidence of hallucinatory descriptions in auto-generated captions. Overall, DOPRA represents a significant step forward in improving the output quality of MLLMs by systematically reducing hallucinations through targeted adjustments during the decoding process.

arxiv情報

著者 Jinfeng Wei,Xiaofeng Zhang
発行日 2024-07-23 09:30:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク