HiMix: Reducing Computational Complexity in Large Vision-Language Models

要約

大規模言語モデルとモダリティ調整技術の最近の進歩の恩恵を受けて、既存の大規模ビジョン言語モデル (LVLM) は、幅広いシナリオにわたって優れたパフォーマンスを達成しています。
ただし、計算が過度に複雑なため、実際のアプリケーションでのこれらのモデルの広範な使用は制限されます。
私たちは、計算の複雑さにおける主なボトルネックの 1 つは、モデル計算における冗長なビジョン シーケンスの関与によって引き起こされると主張します。
これは、LVLM の言語デコーダにおける視覚および言語情報伝達の効率の再評価からインスピレーションを受けています。
次に、混合注意のための階層的ビジョン注入 (HiMix) と呼ばれる新しい階層的ビジョンと言語の相互作用メカニズムを提案します。
HiMix では、言語シーケンスのみが完全な順伝播を受けますが、ビジョン シーケンスは各言語デコーダー層内の特定の段階で言語と対話します。
私たちのアプローチにより、パフォーマンスの損失を最小限に抑えながら計算の複雑さが大幅に軽減されることは驚くべきことです。
具体的には、HiMix は、同等のパフォーマンスを維持しながら、複数の LVLM モデルにわたって言語デコーダの計算コストを 10 分の 1 に削減します。
これは私たちの方法の利点を強調しており、私たちの研究が視覚言語理解の分野に新しい視点をもたらすことを願っています。
プロジェクトページ: https://xuange923.github.io/HiMix

要約(オリジナル)

Benefiting from recent advancements in large language models and modality alignment techniques, existing Large Vision-Language Models(LVLMs) have achieved prominent performance across a wide range of scenarios. However, the excessive computational complexity limits the widespread use of these models in practical applications. We argue that one main bottleneck in computational complexity is caused by the involvement of redundant vision sequences in model computation. This is inspired by a reassessment of the efficiency of vision and language information transmission in the language decoder of LVLMs. Then, we propose a novel hierarchical vision-language interaction mechanism called Hierarchical Vision injection for Mixture Attention (HiMix). In HiMix, only the language sequence undergoes full forward propagation, while the vision sequence interacts with the language at specific stages within each language decoder layer. It is striking that our approach significantly reduces computational complexity with minimal performance loss. Specifically, HiMix achieves a 10x reduction in the computational cost of the language decoder across multiple LVLM models while maintaining comparable performance. This highlights the advantages of our method, and we hope our research brings new perspectives to the field of vision-language understanding. Project Page: https://xuange923.github.io/HiMix

arxiv情報

著者 Xuange Zhang,Dengjie Li,Bo Liu,Zenghao Bao,Yao Zhou,Baisong Yang,Zhongying Liu,Yujie Zhong,Zheng Zhao,Tongtong Yuan
発行日 2025-01-17 17:41:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク