Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

要約

Large Vision-Language Model (LVLM) は物体幻覚の影響を受けやすく、生成されたテキストに存在しない物体が含まれるという問題が発生し、信頼性と実用性が大幅に制限されます。
現在のアプローチは、多くの場合、モデルのトークンの尤度やその他の内部情報、追加のデータセットでの命令の調整、または複雑な外部ツールの組み込みに依存しています。
まず、文レベルの LVLM 幻覚について実証分析を実行し、画像に対する CLIP の類似性が、トークンの可能性と比較してより強力かつ堅牢な幻覚の指標として機能することを発見しました。
これを動機として、私たちは CLIP ガイド付きデコーディング (CGD) アプローチを導入します。これは、デコード時に物体の幻覚を軽減するための、単純だが効果的なトレーニング不要のアプローチです。
CGD は CLIP を使用して、生成されたテキストと画像の視覚的な根拠を強化することで、モデルのデコード プロセスをガイドします。
実験では、CGD がテキスト生成の有用性を維持しながら、複数の LVLM ファミリにわたって物体の幻覚を効果的に軽減することが実証されています。
コードは https://github.com/d-ailin/CLIP-Guided-Decoding で入手できます。

要約(オリジナル)

Large Vision-Language Models (LVLMs) are susceptible to object hallucinations, an issue in which their generated text contains non-existent objects, greatly limiting their reliability and practicality. Current approaches often rely on the model’s token likelihoods or other internal information, instruction tuning on additional datasets, or incorporating complex external tools. We first perform empirical analysis on sentence-level LVLM hallucination, finding that CLIP similarity to the image acts as a stronger and more robust indicator of hallucination compared to token likelihoods. Motivated by this, we introduce our CLIP-Guided Decoding (CGD) approach, a straightforward but effective training-free approach to reduce object hallucination at decoding time. CGD uses CLIP to guide the model’s decoding process by enhancing visual grounding of generated text with the image. Experiments demonstrate that CGD effectively mitigates object hallucination across multiple LVLM families while preserving the utility of text generation. Codes are available at https://github.com/d-ailin/CLIP-Guided-Decoding.

arxiv情報

著者 Ailin Deng,Zhirui Chen,Bryan Hooi
発行日 2024-04-23 09:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク