TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(MLLM)はますます人気が高まっていますが、特に視覚トークンからのマルチモーダルデータ入力に関連する高い計算コストは​​、大きな課題をもたらします。
既存のトレーニングベースのトークン圧縮方法は、推論効率を改善しますが、費用のかかる再訓練が必要ですが、トレーニングなしの方法は、トークンカウントを積極的に削減するときにパフォーマンスを維持するのに苦労しています。
この研究では、MLLMのパフォーマンス低下が、注意出力マトリックス内の情報の喪失の喪失と密接に相関することを明らかにします。
この洞察は、新しい情報提供の視点を紹介し、極端なトークン圧縮の下でもパフォーマンスを維持することを可能にします。
この発見に基づいて、Tokencarveは、トレーニングのないプラグアンドプレイの2段階トークン圧縮フレームワークであると提案します。
第1段階では、情報調達ガイド付きの選択(IPGS)戦略を採用して低情報のトークンを剪定しますが、第2段階ではIPGを活用してトークンの合併をガイドし、情報の損失を最小限に抑えます。
11のデータセットと2つのモデルバリアントでの広範な実験は、Tokencarveの有効性を示しています。
視覚トークンの数を元のカウントの22.2%に減らすことさえでき、推論が1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度が1.54%だけ低下します。
私たちのコードは、https://github.com/shawntan86/tokencarveで入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are becoming increasingly popular, while the high computational cost associated with multimodal data input, particularly from visual tokens, poses a significant challenge. Existing training-based token compression methods improve inference efficiency but require costly retraining, while training-free methods struggle to maintain performance when aggressively reducing token counts. In this study, we reveal that the performance degradation of MLLM closely correlates with the accelerated loss of information in the attention output matrix. This insight introduces a novel information-preserving perspective, making it possible to maintain performance even under extreme token compression. Based on this finding, we propose TokenCarve, a training-free, plug-and-play, two-stage token compression framework. The first stage employs an Information-Preservation-Guided Selection (IPGS) strategy to prune low-information tokens, while the second stage further leverages IPGS to guide token merging, minimizing information loss. Extensive experiments on 11 datasets and 2 model variants demonstrate the effectiveness of TokenCarve. It can even reduce the number of visual tokens to 22.2% of the original count, achieving a 1.23x speedup in inference, a 64% reduction in KV cache storage, and only a 1.54% drop in accuracy. Our code is available at https://github.com/ShawnTan86/TokenCarve.

arxiv情報

著者 Xudong Tan,Peng Ye,Chongjun Tu,Jianjian Cao,Yaoxin Yang,Lin Zhang,Dongzhan Zhou,Tao Chen
発行日 2025-03-13 16:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク