要約
幻覚は、マルチモーダル大規模言語モデル (MLLM) の広範な課題として提起されており、正確な判断が要求される現実世界での使用を大幅に妨げています。
既存の方法では、特定の設計データを使用してトレーニングするか、他のソースからの外部知識を使用して推論することでこの問題を軽減しており、必然的に追加コストが発生します。
この論文では、追加のデータ、知識、トレーニングを必要とせずに、幻覚問題を軽減するほぼ無料のランチとして機能する、過剰信頼ペナルティとレトロスペクション割り当て戦略に基づいた新しい MLLM デコード手法である OPERA を紹介します。
私たちのアプローチは、ほとんどの幻覚は自己注意マトリックスに現れる知識の集合パターンと密接に結びついているという興味深い観察から始まります。つまり、MLLM は、以前のトークンすべてではなく、いくつかの要約トークンに焦点を当てて新しいトークンを生成する傾向があります。
このような部分的な過剰信頼の傾向により、画像トークンが無視され、幻覚を伴う画像内容が記述されます。
統計的には、幻覚コンテンツとそのような知識集約パターンの間には 80%$\sim$95% の同時通貨率が観察されています。
この観察に基づいて、OPERA は、以前に生成されたトークン内のサマリー トークンの存在を遡って再割り当てするロールバック戦略とともに、過剰信頼の問題を軽減するためにビーム検索デコード中にモデル ロジットにペナルティ項を導入します。
必要に応じてトークンを選択します。
広範な実験により、OPERA はさまざまな MLLM および指標に対して顕著な幻覚軽減パフォーマンスを示し、その有効性と汎用性を証明しました。
私たちのコードは https://github.com/sekiw/OPERA で入手できます。
要約(オリジナル)
Hallucination, posed as a pervasive challenge of multi-modal large language models (MLLMs), has significantly impeded their real-world usage that demands precise judgment. Existing methods mitigate this issue with either training with specific designed data or inferencing with external knowledge from other sources, incurring inevitable additional costs. In this paper, we present OPERA, a novel MLLM decoding method grounded in an Over-trust Penalty and a Retrospection-Allocation strategy, serving as a nearly free lunch to alleviate the hallucination issue without additional data, knowledge, or training. Our approach begins with an interesting observation that, most hallucinations are closely tied to the knowledge aggregation patterns manifested in the self-attention matrix, i.e., MLLMs tend to generate new tokens by focusing on a few summary tokens, but not all the previous tokens. Such partial over-trust inclination results in the neglecting of image tokens and describes the image content with hallucination. Statistically, we observe an 80%$\sim$95% co-currency rate between hallucination contents and such knowledge aggregation patterns. Based on the observation, OPERA introduces a penalty term on the model logits during the beam-search decoding to mitigate the over-trust issue, along with a rollback strategy that retrospects the presence of summary tokens in the previously generated tokens, and re-allocate the token selection if necessary. With extensive experiments, OPERA shows significant hallucination-mitigating performance on different MLLMs and metrics, proving its effectiveness and generality. Our code is available at: https://github.com/shikiw/OPERA.
arxiv情報
著者 | Qidong Huang,Xiaoyi Dong,Pan Zhang,Bin Wang,Conghui He,Jiaqi Wang,Dahua Lin,Weiming Zhang,Nenghai Yu |
発行日 | 2023-11-29 18:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google