HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding

要約

大規模視覚言語モデル (LVLM) は、多くの視覚言語タスクで顕著なパフォーマンスを示しています。
ただし、これらのモデルは依然としてマルチモーダル幻覚に悩まされており、これは画像を侵害するオブジェクトやコンテンツが生成されることを意味します。
既存の研究の多くは、画像内に物体が存在するかどうかを直接判断することによって幻覚を検出しており、物体と意味論との間の関連性を見落としている。
この問題に対処するために、ビジョン強化ペナルティ デコーディング (HELPD) を使用した階層型フィードバック学習を提案します。
このフレームワークには、オブジェクトと文の両方の意味レベルで幻覚フィードバックが組み込まれています。
驚くべきことに、わずかな程度のトレーニングでも、このアプローチは幻覚を 15% 以上軽減できます。
同時に、HELPD は、生成されたテキストによる過度の影響を避けるために、画像アテンション ウィンドウに従って出力ロジットにペナルティを与えます。
HELPD は、あらゆる LVLM とシームレスに統合できます。
私たちの実験は、提案されたフレームワークが複数の幻覚ベンチマークにわたって良好な結果をもたらすことを示しています。
さまざまな LVLM の幻覚を効果的に軽減し、同時にテキスト生成の品質を向上させます。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have shown remarkable performance on many visual-language tasks. However, these models still suffer from multimodal hallucination, which means the generation of objects or content that violates the images. Many existing work detects hallucination by directly judging whether an object exists in an image, overlooking the association between the object and semantics. To address this issue, we propose Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding (HELPD). This framework incorporates hallucination feedback at both object and sentence semantic levels. Remarkably, even with a marginal degree of training, this approach can alleviate over 15% of hallucination. Simultaneously, HELPD penalizes the output logits according to the image attention window to avoid being overly affected by generated text. HELPD can be seamlessly integrated with any LVLMs. Our experiments demonstrate that the proposed framework yields favorable results across multiple hallucination benchmarks. It effectively mitigates hallucination for different LVLMs and concurrently improves their text generation quality.

arxiv情報

著者 Fan Yuan,Chi Qin,Xiaogang Xu,Piji Li
発行日 2024-09-30 15:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク