DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception

要約

大規模言語モデル(LLM)の開発は、大規模マルチモーダルモデル(LMM)の出現を大きく前進させた。LMMは、マルチモーダル理解と創作の相乗効果を促進することで大きな成功を収めたが、分布外のデータに直面するとしばしば課題に直面する。これは主に、画像をタスクに関連する特徴にエンコードするように訓練された画像エンコーダーに依存しているためであり、その結果、無関係な詳細を無視してしまう可能性がある。画像に対する拡散モデルのモデリング能力を掘り下げていくと、当然ながら疑問が湧いてくる:拡散モデルは、画像知覚のための大規模言語モデルの目として機能することができるのだろうか?本論文では、画像エンコーダの意味分布を整合させるために拡散モデルの生成的フィードバックを利用する、シンプルで効果的なアプローチであるDEEMを提案する。これにより、ViTのような画像エンコーダのみに依存した従来の手法の欠点に対処し、分布外サンプルに対するモデルの耐性を強化し、視覚的幻覚を低減する。重要なことは、これは追加の学習モジュールを必要とせず、より少ない学習パラメータで達成されることである。DEEMを新たに構築したRobustVQAベンチマークと、もう一つの有名なベンチマークである物体幻覚のPOPEの両方で広範囲に評価した。最先端のインターリーブコンテンツ生成モデルと比較して、DEEMは、より少ない学習パラメータ、より少ない事前学習データ(10%)、より小さい基本モデルサイズを利用しながら、より強化されたロバスト性とモデルの幻覚を緩和する優れた能力を示す。

要約(オリジナル)

The development of large language models (LLMs) has significantly advanced the emergence of large multimodal models (LMMs). While LMMs have achieved tremendous success by promoting the synergy between multimodal comprehension and creation, they often face challenges when confronted with out-of-distribution data. This is primarily due to their reliance on image encoders trained to encode images into task-relevant features, which may lead them to disregard irrelevant details. Delving into the modeling capabilities of diffusion models for images naturally prompts the question: Can diffusion models serve as the eyes of large language models for image perception? In this paper, we propose DEEM, a simple and effective approach that utilizes the generative feedback of diffusion models to align the semantic distributions of the image encoder. This addresses the drawbacks of previous methods that solely relied on image encoders like ViT, thereby enhancing the model’s resilience against out-of-distribution samples and reducing visual hallucinations. Importantly, this is achieved without requiring additional training modules and with fewer training parameters. We extensively evaluated DEEM on both our newly constructed RobustVQA benchmark and another well-known benchmark, POPE, for object hallucination. Compared to the state-of-the-art interleaved content generation models, DEEM exhibits enhanced robustness and a superior capacity to alleviate model hallucinations while utilizing fewer trainable parameters, less pre-training data (10%), and a smaller base model size.

arxiv情報

著者 Run Luo,Yunshui Li,Longze Chen,Wanwei He,Ting-En Lin,Ziqiang Liu,Lei Zhang,Zikai Song,Xiaobo Xia,Tongliang Liu,Min Yang,Binyuan Hui
発行日 2024-07-03 17:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク