Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective

要約

大規模マルチモーダル モデル (LMM) は、視覚入力に存在しないコンテンツを作成する可能性があるマルチモーダル幻覚に悩まされることがよくあります。
この論文では、この問題の新しい角度を探ります。詳細すぎるトレーニング データは、モデルの生成を適時に終了する能力を妨げ、視覚的な認識の限界を超えた出力の継続につながります。
モデルが特別な文末トークンである EOS で生成を終了することをどのように決定するかを調査することで、モデルが生成されたテキストと画像を比較することによってシーケンス全体の完全性を評価していることがわかります。
この観察は、モデルが過度に長い出力を回避するために、視覚認識に基づいて適切な EOS 決定を下す固有の可能性を持っていることを示唆しています。
このような可能性を活用するために、私たちは多峰性幻覚を軽減する 2 つの方法を検討します。1 つはモデルが定期的な指導データから学習することで幻覚を軽減できるようにするトレーニング目標で、もう 1 つは有害なトレーニング データがモデルの幻覚を悪化させるのを防ぐためのデータ フィルタリング戦略です。
どちらの方法も、追加のデータや知識を必要とせずに、LMM の幻覚パフォーマンスを大幅に向上させます。

要約(オリジナル)

Large Multimodal Models (LMMs) often suffer from multimodal hallucinations, wherein they may create content that is not present in the visual inputs. In this paper, we explore a new angle of this issue: overly detailed training data hinders the model’s ability to timely terminate generation, leading to continued outputs beyond visual perception limits. By investigating how the model decides to terminate generation with EOS, the special end-of-sentence token, we find that the model assesses the completeness of the entire sequence by comparing the generated text with the image. This observation suggests that the model possesses an inherent potential of making proper EOS decisions based on its visual perception to avoid overly lengthy outputs. To take advantage of such potential, we explore two methods to mitigate multimodal hallucinations: a training objective that enables the model to reduce hallucinations by learning from regular instruction data, and a data filtering strategy to prevent harmful training data from exacerbating model hallucinations. Both methods significantly improve the hallucination performance of LMMs, without requiring any additional data or knowledge.

arxiv情報

著者 Zihao Yue,Liang Zhang,Qin Jin
発行日 2024-02-22 13:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク