Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM

要約

大規模なマルチモーダルモデルはマルチモーダルタスクに優れていますが、視覚トークンでの過剰な計算により、重要な計算上の課題に直面しています。
トークンレベルの冗長性に焦点を当てたトークン削減方法とは異なり、情報の損失を確保するために、ビジョントークンの計算レベルの冗長性を特定して研究します。
私たちの重要な洞察は、事前に守られたビジョンエンコーダーからのビジョントークンでは、デコーダーのみのLMMSのすべての重い操作(自己関節、FFN)を必要とし、適切な設計でより軽く処理できるということです。
視力関連の計算冗長性を発見し、徐々に絞り出すための一連の実験を設計しました。
調査結果に基づいて、プロキシビジョントークンを利用して元のビジョントークンの計算負担を軽減する新しいアプローチであるProxyVを提案します。
ProxyVは、パフォーマンスを損なうことなく効率を向上させ、より緩やかな効率改善により、シナリオで顕著なパフォーマンスの向上をもたらすことさえできます。
さらに、ProxyVの柔軟性は、トークン削減方法との組み合わせにより、効率をさらに高めることで実証されています。
このコードは、このhttps://github.com/penghao-wu/proxyv urlで公開されます。

要約(オリジナル)

Large multimodal models excel in multimodal tasks but face significant computational challenges due to excessive computation on visual tokens. Unlike token reduction methods that focus on token-level redundancy, we identify and study the computation-level redundancy on vision tokens to ensure no information loss. Our key insight is that vision tokens from the pretrained vision encoder do not necessarily require all the heavy operations (e.g., self-attention, FFNs) in decoder-only LMMs and could be processed more lightly with proper designs. We designed a series of experiments to discover and progressively squeeze out the vision-related computation redundancy. Based on our findings, we propose ProxyV, a novel approach that utilizes proxy vision tokens to alleviate the computational burden on original vision tokens. ProxyV enhances efficiency without compromising performance and can even yield notable performance gains in scenarios with more moderate efficiency improvements. Furthermore, the flexibility of ProxyV is demonstrated through its combination with token reduction methods to boost efficiency further. The code will be made public at this https://github.com/penghao-wu/ProxyV URL.

arxiv情報

著者 Penghao Wu,Lewei Lu,Ziwei Liu
発行日 2025-05-21 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク