Token Dynamics: Towards Efficient and Dynamic Video Token Representation for Video Large Language Models

要約

トークンベースのビデオ表現は、大きな言語モデルがビデオコンテンツを解釈できるようにするための有望なアプローチとして浮上しています。
ただし、トークンプルーニングやトークンマージなどの既存のトークン削減技術は、多くの場合、重要な空間的位置埋め込みを破壊し、計算効率とより少ないトークンのバランスを適切にバランスさせることができません。
その結果、これらの方法は比較的長いトークンシーケンスをもたらし、ビデオ大型言語モデルなどの極端なトークン圧縮を必要とするシナリオでの適用性を制限します。
この論文では、最小限のトークンで広範なビデオシーケンスを表現することを目指して、極端な短いトークン削減の新しいタスクを紹介します。
この課題に対処するために、トークンダイナミクスを提案します。これは、空間的な一貫性を維持しながらトークンカウントを動的に削減する新しいビデオ表現フレームワークです。
具体的には、視覚的な埋め込みをグリッドレベルのモーション情報から分離することにより、ビデオ表現を解き放ち、それらを以下に構成します。1。オブジェクトレベルのコンテンツを説明するクラスタリングト​​ークンによって作成された簡潔なトークンベース。
2。トークンダイナミクスマップ、グリッド全体の詳細な空間的モーションパターンをキャプチャします。
さらに、トークンの長さを増やすことなく、モーション機能をトークンベースに統合し、それによってコンパクトさと空間的状態の完全性を維持するクロスダイナミクスの注意メカニズムを導入します。
この実験では、トークンカウントが元のトークンの0.07%にわずか0.07%に減少することを示しており、パフォーマンスが1.13%しか低下していません。
さらに、極端なトークン削減(固定長および適応長圧縮)内で2つの新しいサブタスクを提案します。どちらも、ビデオ言語タスクの長いトークンシーケンスを効果的に表しています。
この方法では、理論的な複雑さが大幅に低下し、トークンが少なく、スループットが強化されているため、ビデオLLMの効率的なソリューションが提供されます。

要約(オリジナル)

Token-based video representation has emerged as a promising approach for enabling large language models to interpret video content. However, existing token reduction techniques, such as token pruning and token merging, often disrupt essential spatial-temporal positional embeddings, failing to adequately balance computational efficiency with fewer tokens. Consequently, these methods result in relatively lengthy token sequences, limiting their applicability in scenarios requiring extreme token compression, such as video large language models. In this paper, we introduce the novel task of extreme short token reduction, aiming to represent extensive video sequences with a minimal number of tokens. To address this challenge, we propose Token Dynamics, a new video representation framework that dynamically reduces token count while preserving spatial-temporal coherence. Specifically, we disentangle video representations by separating visual embeddings from grid-level motion information, structuring them into: 1. a concise token base, created by clustering tokens that describe object-level content; 2. a token dynamics map, capturing detailed spatial-temporal motion patterns across grids. Furthermore, we introduce a cross-dynamics attention mechanism that integrates motion features into the token base without increasing token length, thereby maintaining compactness and spatial-temporal integrity. The experiments demonstrate a reduction of token count to merely 0.07% of the original tokens, with only a minor performance drop of 1.13%. Additionally, we propose two novel subtasks within extreme token reduction (fixed-length and adaptive-length compression), both effectively representing long token sequences for video-language tasks. Our method offers significantly lower theoretical complexity, fewer tokens, and enhanced throughput, thus providing an efficient solution for video LLMs.

arxiv情報

著者 Haichao Zhang,Zhuowei Li,Dimitris Metaxas,Yun Fu
発行日 2025-03-21 09:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク