DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models

要約

ビデオ大規模な言語モデル(VLLM)は、最近、複雑なビデオコンテンツの処理に最近大幅に進歩しましたが、ビデオ入力から生成された数千の視覚トークンに起因する高い計算コストのため、推論効率は抑制されたままです。
単一の画像入力とは異なり、VLLMは通常、異なるデコードの反復で異なるフレームの視覚的なトークンに参加し、誤って重要なトークンを削除する傾向があるワンショット剪定戦略を作成することを経験的に観察します。
これに動機付けられて、トークン表現を最適化し、VLLMを加速するためのトレーニングなしのトークン圧縮法であるDycokeを提示します。
Dycokeは、プラグアンドプレイの時間的圧縮モジュールを組み込んで、フレーム間で冗長トークンをマージすることにより時間的冗長性を最小限に抑え、動的kVキャッシュ削減を適用して、空間的に冗長トークンを選択的にプルンする。
各デコードステップで重要なトークンを動的に保持することにより、高品質の推論を保証します。
広範な実験結果は、ダイコークが以前のSOTAカウンターパートを上回ることができることを示しており、1.5倍の推論スピードアップ、ベースラインVLLMに対する1.4倍のメモリ削減を達成しながら、トレーニングなしでパフォーマンスを改善します。

要約(オリジナル)

Video large language models (VLLMs) have significantly advanced recently in processing complex video content, yet their inference efficiency remains constrained because of the high computational cost stemming from the thousands of visual tokens generated from the video inputs. We empirically observe that, unlike single image inputs, VLLMs typically attend visual tokens from different frames at different decoding iterations, making a one-shot pruning strategy prone to removing important tokens by mistake. Motivated by this, we present DyCoke, a training-free token compression method to optimize token representation and accelerate VLLMs. DyCoke incorporates a plug-and-play temporal compression module to minimize temporal redundancy by merging redundant tokens across frames, and applies dynamic KV cache reduction to prune spatially redundant tokens selectively. It ensures high-quality inference by dynamically retaining the critical tokens at each decoding step. Extensive experimental results demonstrate that DyCoke can outperform the prior SoTA counterparts, achieving 1.5X inference speedup, 1.4X memory reduction against the baseline VLLM, while still improving the performance, with no training.

arxiv情報

著者 Keda Tao,Can Qin,Haoxuan You,Yang Sui,Huan Wang
発行日 2025-03-28 14:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク