DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models

要約

視覚と言語のモダリティを橋渡しし、クロスモーダルの調整を容易にするビジュアル プロジェクターは、MLLM の重要なコンポーネントとして機能します。
ただし、視覚と言語の調整におけるプロジェクターの有効性の測定は依然として研究不足であり、現時点では下流タスクでの MLLM のパフォーマンスから推測することしかできません。
この問題に動機付けられたこの研究では、MLLM 内の視覚言語の意味の流れを解釈することによってプロジェクター モジュールを調査します。
具体的には、生成された言語トークンから生のビジュアル エンコーダー パッチ、プロジェクターによって生成された中間出力まで、意味論的な関連性フローを追跡します。
私たちの調査結果は、圧縮プロジェクター (QFormer など) が視覚的なパッチをオブジェクトや属性などの限られた意味概念のセットに抽象化し、「二重抽象化」現象を引き起こすことを明らかにしました。
これには、事前定義されたクエリ トークンを参照するプロジェクターによる最初の視覚的な意味の抽象化と、テキスト命令に基づく LLM による 2 番目の抽出が含まれます。
二重抽象化はトレーニングにおいて非効率的であり、累積的なビジョン セマンティクスの欠陥をもたらします。
この問題を軽減するために、私たちは「Decouple Compression from Abstraction (DeCo)」という重要な洞察を提案します。これは、プロジェクターによってパッチ レベルでビジュアル トークン数を圧縮し、LLM がビジュアル セマンティック抽象化を完全に処理できるようにすることです。
その結果、単純なコンプレッサー、つまり 2D Adaptive Pooling を採用して、パラメーターを使用しない方法でビジュアル パッチをダウンサンプリングします。
実証的評価により、DeCo はパフォーマンスと効率の両方において従来の圧縮プロジェクターを上回っていることが実証されています。
MLLM ベンチマーク、ビジュアル ローカライゼーション、およびオープンエンド VQA タスク全体で、トレーニング可能なパラメーターが減り、収束速度が速くなり、0.9%、7.1%、2.9% のパフォーマンス向上を達成します。

要約(オリジナル)

The visual projector, which bridges the vision and language modalities and facilitates cross-modal alignment, serves as a crucial component in MLLMs. However, measuring the effectiveness of projectors in vision-language alignment remains under-explored, which currently can only be inferred from the performance of MLLMs on downstream tasks. Motivated by the problem, this study examines the projector module by interpreting the vision-language semantic flow within MLLMs. Specifically, we trace back the semantic relevance flow from generated language tokens to raw visual encoder patches and the intermediate outputs produced by projectors. Our findings reveal that compressive projectors (e.g., QFormer), abstract visual patches into a limited set of semantic concepts, such as objects or attributes, resulting in a ‘double abstraction’ phenomenon. This involves a first visual semantic abstraction by the projector referring to pre-defined query tokens, and a second extraction by the LLM based on text instructions. The double abstraction is inefficient in training and will result in cumulative vision semantics deficiency. To mitigate this issue, we propose the key insight of ‘Decouple Compression from Abstraction (DeCo), that is compressing the visual token number at the patch level by projectors and allowing the LLM to handle visual semantic abstraction entirely. Consequently, we adopt a simple compressor, i.e., 2D Adaptive Pooling, to downsample visual patches in a parameter-free manner. Empirical evaluation demonstrates that DeCo surpasses traditional compressive projectors regarding both performance and efficiency. It achieves performance gains of 0.9%, 7.1%, and 2.9% across the MLLM Benchmarks, Visual Localization, and Open-ended VQA tasks with fewer trainable parameters and faster convergence speed.

arxiv情報

著者 Linli Yao,Lei Li,Shuhuai Ren,Lean Wang,Yuanxin Liu,Xu Sun,Lu Hou
発行日 2024-05-31 16:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク