FoPru: Focal Pruning for Efficient Large Vision-Language Models

要約

Large Vision-Language Model (LVLM) は、強力な Large Language Model (LLM) が視覚入力を理解できるようにすることで、優れたマルチモーダル機能の実現に向けた大幅な進歩を表しています。
通常、LVLM は CLIP などのビジュアル エンコーダを利用して画像をビジュアル トークンに変換し、推論のために LLM に入力される前に投影レイヤーを介してテキスト トークンと位置合わせされます。
既存の LVLM は大きな成功を収めていますが、その推論効率は、相当な数のビジュアル トークンとそれらの間の潜在的な冗長性によって依然として制限されています。
この問題を軽減するために、ビジョン エンコーダーから得られる注意ベースのトークンの重要性に基づいてビジュアル トークンをプルーニングする、トレーニング不要の手法であるフォーカル プルーニング (FoPru) を提案します。
具体的には、2 つの代替プルーニング戦略を紹介します。1) ランク戦略。すべてのトークン重要度スコアを活用して、グローバルな観点からより重要なトークンを保持します。
2) 行戦略。ローカルな観点から画像内の連続的な重要な情報を保存することに焦点を当てます。
最後に、選択したトークンが元の位置関係を維持するように並べ替えられます。
さまざまな LVLM とマルチモーダル データセットにわたる広範な実験により、私たちの方法が高精度を維持しながら多数の冗長なトークンを取り除くことができ、推論効率の大幅な向上につながることが実証されました。

要約(オリジナル)

Large Vision-Language Models (LVLMs) represent a significant advancement toward achieving superior multimodal capabilities by enabling powerful Large Language Models (LLMs) to understand visual input. Typically, LVLMs utilize visual encoders, such as CLIP, to transform images into visual tokens, which are then aligned with textual tokens through projection layers before being input into the LLM for inference. Although existing LVLMs have achieved significant success, their inference efficiency is still limited by the substantial number of visual tokens and the potential redundancy among them. To mitigate this issue, we propose Focal Pruning (FoPru), a training-free method that prunes visual tokens based on the attention-based token significance derived from the vision encoder. Specifically, we introduce two alternative pruning strategies: 1) the rank strategy, which leverages all token significance scores to retain more critical tokens in a global view; 2) the row strategy, which focuses on preserving continuous key information in images from a local perspective. Finally, the selected tokens are reordered to maintain their original positional relationships. Extensive experiments across various LVLMs and multimodal datasets demonstrate that our method can prune a large number of redundant tokens while maintaining high accuracy, leading to significant improvements in inference efficiency.

arxiv情報

著者 Lei Jiang,Weizhe Huang,Tongxuan Liu,Yuting Zeng,Jing Li,Lechao Cheng,Xiaohua Xu
発行日 2024-11-21 14:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク