Compression with Global Guidance: Towards Training-free High-Resolution MLLMs Acceleration

要約

マルチモーダル大規模言語モデル (MLLM) は、視覚的なコンテンツの理解と推論において優れたパフォーマンスを発揮するため、かなりの注目を集めています。
ただし、マルチモーダル コンテキストの長さが増加すると 2 次の複雑さが生じるため、その推論効率が顕著な懸念事項となっています。
視覚的なトークンの数を減らすトークン圧縮技術は、計算コストの削減に有効であることが実証されています。
しかし、これらのアプローチは、MLLM、特に高解像度画像理解のコンテキストにおける AnyRes 戦略の急速な進歩に追いつくのに苦労しています。
この論文では、サムネイルと複数のクロップの両方を受け取る高解像度 MLLM に合わせた新しいトークン圧縮方法 GlobalCom$^2$ を提案します。
GlobalCom$^2$ は、サムネイルから派生したトークンをトークン圧縮プロセス全体の「司令官」として扱い、保持率の割り当てと各作物の特定の圧縮を指示します。
このようにして、冗長なトークンが削除され、重要なローカルの詳細が可能な限り適応的に保存されます。
10 のベンチマークにわたる実証結果から、GlobalCom$^2$ はパフォーマンスと効率の最適なバランスを実現し、LLaVA-NeXT-7B/13B モデルを使用した最先端のトークン圧縮方式を常に上回るパフォーマンスを示していることがわかります。
私たちのコードは https://github.com/xuyang-liu16/GlobalCom2 でリリースされています。

要約(オリジナル)

Multimodal large language models (MLLMs) have attracted considerable attention due to their exceptional performance in visual content understanding and reasoning. However, their inference efficiency has been a notable concern, as the increasing length of multimodal contexts leads to quadratic complexity. Token compression techniques, which reduce the number of visual tokens, have demonstrated their effectiveness in reducing computational costs. Yet, these approaches have struggled to keep pace with the rapid advancements in MLLMs, especially the AnyRes strategy in the context of high-resolution image understanding. In this paper, we propose a novel token compression method, GlobalCom$^2$, tailored for high-resolution MLLMs that receive both the thumbnail and multiple crops. GlobalCom$^2$ treats the tokens derived from the thumbnail as the ‘commander’ of the entire token compression process, directing the allocation of retention ratios and the specific compression for each crop. In this way, redundant tokens are eliminated while important local details are adaptively preserved to the highest extent feasible. Empirical results across 10 benchmarks reveal that GlobalCom$^2$ achieves an optimal balance between performance and efficiency, and consistently outperforms state-of-the-art token compression methods with LLaVA-NeXT-7B/13B models. Our code is released at https://github.com/xuyang-liu16/GlobalCom2.

arxiv情報

著者 Xuyang Liu,Ziming Wang,Yuhang Han,Yingyao Wang,Jiale Yuan,Jun Song,Bo Zheng,Linfeng Zhang,Siteng Huang,Honggang Chen
発行日 2025-01-15 17:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク