Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩では、MLLM の視覚的な欠点を補うために大きな画像トークンがよく使用されますが、これは明らかな冗長性を示すだけでなく、すでに高度な計算量を大幅に悪化させます。
トークン プルーニングは MLLM を高速化するための効果的なソリューションですが、トークンをいつどのようにドロップするかは依然として課題です。
この論文では、MLLM の効果的な視覚的トークン プルーニングのためのトレーニング不要の新しいアプローチを提案します。FitPrune と呼ばれ、事前に定義された予算に従って MLLM の完全なプルーニング レシピを迅速に作成できます。
具体的には、FitPrune はトークン プルーニングを MLLM の統計的問題として考慮し、その目的は、プルーニングの前後での注意分布の発散を最小限に抑えることができる最適なプルーニング スキームを見つけることです。
実際には、FitPrune は、小規模な推論データのバッチからのアテンション統計に基づいて迅速に実行でき、MLLM の高価なトライアルを回避できます。
プルーニング レシピに従って、MLLM は推論中にさまざまな例の冗長なビジュアル トークンを直接削除できます。
FitPrune を検証するために、LLaVA-1.5、LLaVA-HR、LLaVA-NEXT などの最近の MLLM のセットに FitPrune を適用し、一連のベンチマークで広範な実験を実施します。
実験結果は、FitPrune が高いパフォーマンスを維持しながら、計算の複雑さを大幅に軽減できるだけでなく、たとえば、LLaVA-NEXT の場合、わずか 0.5% の精度低下で -54.9% の FLOP を達成できることを示しています。
特に、剪定レシピは約 5 分で取得できます。
私たちのコードは https://github.com/ywh187/FitPrune で入手できます。

要約(オリジナル)

Recent progress in Multimodal Large Language Models(MLLMs) often use large image tokens to compensate the visual shortcoming of MLLMs, which not only exhibits obvious redundancy but also greatly exacerbates the already high computation. Token pruning is an effective solution for speeding up MLLMs, but when and how to drop tokens still remains a challenge. In this paper, we propose a novel and training-free approach for the effective visual token pruning of MLLMs, termed FitPrune, which can quickly produce a complete pruning recipe for MLLMs according to a pre-defined budget. Specifically, FitPrune considers token pruning as a statistical problem of MLLM and its objective is to find out an optimal pruning scheme that can minimize the divergence of the attention distributions before and after pruning. In practice, FitPrune can be quickly accomplished based on the attention statistics from a small batch of inference data, avoiding the expensive trials of MLLMs. According to the pruning recipe, an MLLM can directly remove the redundant visual tokens of different examples during inference. To validate FitPrune, we apply it to a set of recent MLLMs, including LLaVA-1.5, LLaVA-HR and LLaVA-NEXT, and conduct extensive experiments on a set of benchmarks. The experimental results show that our FitPrune can not only reduce the computational complexity to a large extent, while retaining high performance, e.g., -54.9% FLOPs for LLaVA-NEXT with only 0.5% accuracy drop. Notably, the pruning recipe can be obtained in about 5 minutes. Our code is available at https://github.com/ywh187/FitPrune.

arxiv情報

著者 Weihao Ye,Qiong Wu,Wenhao Lin,Yiyi Zhou
発行日 2024-09-16 11:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク