要約
効果的なビデオトークン化は、長いビデオのトランスモデルをスケーリングするために重要です。
現在のアプローチは、時空パッチを使用してビデオをトークン化し、過度のトークンと計算の非効率性につながります。
最高のトークン削減戦略は、パフォーマンスを低下させ、カメラが移動するときにトークンの数をほとんど減らしません。
固定パッチではなく、パノプティックサブオブジェクトの軌跡に基づいてトークンを整理するパラダイムである接地ビデオトークン化を紹介します。
私たちの方法は、基本的な知覚原則と一致し、トークン化がビデオの期間ではなくシーンの複雑さを反映することを保証します。
オブジェクトの軌跡を抽出し、それらを意味的に意味のあるトークンに変換するビデオエンコーダーであるTrajvitを提案し、一時的なコヒーレンスを維持しながら冗長性を大幅に削減します。
対照的な学習で訓練されたTrajvitは、複数のビデオ理解ベンチマークにわたって時空VIT(VIT3D)を大幅に上回ります。たとえば、Trajvitは、10Xトークン控除のあるビデオテキスト検索タスクで平均で6%トップ5リコールの大きなマージンをvit3dよりも優れています。
また、TrajvitはVIT3Dよりも強力なモデルとして、Modern Videollmのビデオエンコーダーであるため、6つのVideoQAベンチマークで平均5.2%のパフォーマンス改善を取得しながら、トレーニング時間が4倍高く、推論フロップが18倍少ないことを示しています。
Trajvitは、多様なビデオ分析タスク全体でVIT3Dを一貫して上回る最初の効率的なエンコーダーであり、堅牢でスケーラブルなソリューションになります。
要約(オリジナル)
Effective video tokenization is critical for scaling transformer models for long videos. Current approaches tokenize videos using space-time patches, leading to excessive tokens and computational inefficiencies. The best token reduction strategies degrade performance and barely reduce the number of tokens when the camera moves. We introduce grounded video tokenization, a paradigm that organizes tokens based on panoptic sub-object trajectories rather than fixed patches. Our method aligns with fundamental perceptual principles, ensuring that tokenization reflects scene complexity rather than video duration. We propose TrajViT, a video encoder that extracts object trajectories and converts them into semantically meaningful tokens, significantly reducing redundancy while maintaining temporal coherence. Trained with contrastive learning, TrajViT significantly outperforms space-time ViT (ViT3D) across multiple video understanding benchmarks, e.g., TrajViT outperforms ViT3D by a large margin of 6% top-5 recall in average at video-text retrieval task with 10x token deduction. We also show TrajViT as a stronger model than ViT3D for being the video encoder for modern VideoLLM, obtaining an average of 5.2% performance improvement across 6 VideoQA benchmarks while having 4x faster training time and 18x less inference FLOPs. TrajViT is the first efficient encoder to consistently outperform ViT3D across diverse video analysis tasks, making it a robust and scalable solution.
arxiv情報
著者 | Chenhao Zheng,Jieyu Zhang,Mohammadreza Salehi,Ziqi Gao,Vishnu Iyengar,Norimasa Kobori,Quan Kong,Ranjay Krishna |
発行日 | 2025-05-29 16:25:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google