AdaTP: Attention-Debiased Token Pruning for Video Large Language Models

要約

ビデオ大規模な言語モデル(ビデオLLM)は、ビデオ理解のタスクで顕著な結果を達成しました。
ただし、複数のビデオフレームから生成された視覚トークンが多数あるため、彼らはしばしば重い計算オーバーヘッドに苦しんでいます。
既存の視覚トークン圧縮方法は、多くの場合、ガイダンスとして言語モデルからの注意スコアに依存しています。
ただし、これらのスコアは固有のバイアスを示します。グローバルバイアスは、視覚トークンシーケンスの両端に焦点を合わせる傾向を反映していますが、ローカルバイアスは異なるフレームにわたる同じ空間位置の過度の濃縮につながります。
注意バイアスの問題に対処するために、$ \ textbf {a} $ ttention-$ \ textbf {d} $ ebi $ \ textbf {a} $ sed $ \ textbf {t} $ oken $ \ textbf {p} $ runing for video video video viday models($ \ textbf {adatpbf {adatpf:$ forming pring for for for for for for for for prun
LLMS。
ADATPは、2つの専用の委任モジュールをパイプラインに統合し、それぞれグローバルな注意バイアスとローカルな注意バイアスをターゲットにしています。
追加のトレーニングを必要とせずに、私たちの方法は、バニラモデルのパフォーマンスを保持しながら、ビデオLLMの計算オーバーヘッドを大幅に削減します。
広範な評価によると、ADATPは、一般的に使用されるさまざまなビデオ理解ベンチマークで最先端のパフォーマンスを達成しています。
特に、LLAVA-OneVision-7Bでは、ADATPはバニラモデルと比較して最大$ 27.3 \%$ flopsのみを使用しながら、分解なしでパフォーマンスを維持します。
私たちのコードはまもなくリリースされます。

要約(オリジナル)

Video Large Language Models (Video LLMs) have achieved remarkable results in video understanding tasks. However, they often suffer from heavy computational overhead due to the large number of visual tokens generated from multiple video frames. Existing visual token compression methods often rely on attention scores from language models as guidance. However, these scores exhibit inherent biases: global bias reflects a tendency to focus on the two ends of the visual token sequence, while local bias leads to an over-concentration on the same spatial positions across different frames. To address the issue of attention bias, we propose $\textbf{A}$ttention-$\textbf{D}$ebi$\textbf{a}$sed $\textbf{T}$oken $\textbf{P}$runing for Video Large Language Models ($\textbf{AdaTP}$), a novel token pruning pipeline for Video LLMs. AdaTP integrates two dedicated debiasing modules into the pipeline, targeting global attention bias and local attention bias, respectively. Without the need for additional training, our method significantly reduces the computational overhead of Video LLMs while retaining the performance of vanilla models. Extensive evaluation shows that AdaTP achieves state-of-the-art performance in various commonly used video understanding benchmarks. In particular, on LLaVA-OneVision-7B, AdaTP maintains performance without degradation while using only up to $27.3\%$ FLOPs compared to the vanilla model. Our code will be released soon.

arxiv情報

著者 Fengyuan Sun,Leqi Shen,Hui Chen,Sicheng Zhao,Jungong Han,Guiguang Ding
発行日 2025-05-26 15:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク