Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

要約

マルチモーダルの大手言語モデル(MLLMS)では、入力視覚トークンの長さは、テキストの対応物の長さよりも大幅に大きく、推論コストが高くなります。
多くの作品は、冗長な視覚トークンを削除することにより、この問題に対処することを目指しています。
ただし、現在のアプローチは、多数の重複トークンを保持する注意ベースの剪定に依存するか、類似性ベースの剪定を使用して、命令関連性を見落とし、結果として下位パフォーマンスを引き起こします。
この論文では、保持トークンの条件付き多様性を最大化するCdprunerという名前の新しい視覚トークン剪定方法を提案することにより、注意や類似性を超えています。
最初に、命令に条件付けられた視覚トークン間の条件付き類似性を定義し、次に選択したサブセットの条件付き多様性を最大化するために、決定的な点プロセス(DPP)でトークン剪定問題を再定式化します。
提案されているCDPRUNERは、トレーニングなしでモデルに依存しているため、さまざまなMLLMに簡単に適用できます。
多様なMLLMを介した広範な実験は、CDPRUNERがさまざまなビジョン言語ベンチマークで新しい最先端のベンチマークを確立することを示しています。
DPPを介して条件付きの多様性を最大化することにより、選択されたサブセットは入力画像をよりよく表し、ユーザーの命令を密接に順守し、それにより高削減比でも強力なパフォーマンスを維持します。
Llavaに適用すると、CDPRUNERはフロップを95 \%、CUDAレイテンシを78 \%減らし、元の精度の94 \%を維持します。
私たちのコードは、https://github.com/theia-4869/cdprunerで入手できます。

要約(オリジナル)

In multimodal large language models (MLLMs), the length of input visual tokens is often significantly greater than that of their textual counterparts, leading to a high inference cost. Many works aim to address this issue by removing redundant visual tokens. However, current approaches either rely on attention-based pruning, which retains numerous duplicate tokens, or use similarity-based pruning, overlooking the instruction relevance, consequently causing suboptimal performance. In this paper, we go beyond attention or similarity by proposing a novel visual token pruning method named CDPruner, which maximizes the conditional diversity of retained tokens. We first define the conditional similarity between visual tokens conditioned on the instruction, and then reformulate the token pruning problem with determinantal point process (DPP) to maximize the conditional diversity of the selected subset. The proposed CDPruner is training-free and model-agnostic, allowing easy application to various MLLMs. Extensive experiments across diverse MLLMs show that CDPruner establishes new state-of-the-art on various vision-language benchmarks. By maximizing conditional diversity through DPP, the selected subset better represents the input images while closely adhering to user instructions, thereby preserving strong performance even with high reduction ratios. When applied to LLaVA, CDPruner reduces FLOPs by 95\% and CUDA latency by 78\%, while maintaining 94\% of the original accuracy. Our code is available at https://github.com/Theia-4869/CDPruner.

arxiv情報

著者 Qizhe Zhang,Mengzhen Liu,Lichen Li,Ming Lu,Yuan Zhang,Junwen Pan,Qi She,Shanghang Zhang
発行日 2025-06-12 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク