Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

要約

視覚言語モデルの高速化に関する最近の研究では、視覚情報が高度に圧縮されているにもかかわらず、さまざまな視覚言語タスクにわたって強力なパフォーマンスを維持できることが示されています。
この研究では、言語モデル内の視覚トークンの早期プルーニングという一般的な高速化アプローチを検証し、多くのタスクにわたるその優れたパフォーマンスは、視覚情報を圧縮する優れた能力によるものではなく、むしろベンチマークの限られた評価能力によるものであることを発見しました。
きめ細かいビジュアル機能。
つまり、イメージの上部にあるほとんどのトークンが切り取られるという、高速化アプローチの核心的な問題を示します。
ただし、この問題は、ローカリゼーションなどのタスクのごく一部のパフォーマンスにのみ反映されます。
他の評価済みタスクでは、欠陥のある枝刈り戦略によっても高いパフォーマンスが維持されます。
研究された加速技術の視覚的能力が限られていることに留意して、我々は、(1) 初期層の枝刈りによって特定された問題を解決し、(2) カバレッジを確保するために均一なサンプリングを組み込む直接的なアプローチである FEATHER (Fast and Effects Acceleration withTH Ensemble cRiteria) を提案します。
(3) 初期層の枝刈りによって大幅な高速化を達成しながら、後の層で基準がより効果的になるように、2 段階で枝刈りを適用します。
同等の計算量の節約により、FEATHER は元の加速アプローチと比較して、視覚中心のローカリゼーション ベンチマークで 5 倍以上のパフォーマンス向上があることがわかります。

要約(オリジナル)

Recent works on accelerating Vision-Language Models show that strong performance can be maintained across a variety of vision-language tasks despite highly compressing visual information. In this work, we examine the popular acceleration approach of early pruning of visual tokens inside the language model and find that its strong performance across many tasks is not due to an exceptional ability to compress visual information, but rather the benchmarks’ limited ability to assess fine-grained visual capabilities. Namely, we demonstrate a core issue with the acceleration approach where most tokens towards the top of the image are pruned away. Yet, this issue is only reflected in performance for a small subset of tasks such as localization. For the other evaluated tasks, strong performance is maintained with the flawed pruning strategy. Noting the limited visual capabilities of the studied acceleration technique, we propose FEATHER (Fast and Effective Acceleration wiTH Ensemble cRiteria), a straightforward approach that (1) resolves the identified issue with early-layer pruning, (2) incorporates uniform sampling to ensure coverage across all image regions, and (3) applies pruning in two stages to allow the criteria to become more effective at a later layer while still achieving significant speedup through early-layer pruning. With comparable computational savings, we find that FEATHER has more than $5\times$ performance improvement on the vision-centric localization benchmarks compared to the original acceleration approach.

arxiv情報

著者 Mark Endo,Xiaohan Wang,Serena Yeung-Levy
発行日 2024-12-17 18:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク