要約
長時間のビデオ処理は、視覚言語モデル(VLM)に大きな課題を与える。既存のトークン刈り込みや特徴マージは、しばしば重要な時間依存性を犠牲にしたり、意味情報を薄めたりする。我々は、冗長性を抑制しつつ、タスクに関連する情報を系統的に保存する原理的アプローチである差分蒸留を導入する。この原理に基づき、我々はViLaMPを開発した。ViLaMPは、2つの主要なメカニズム、(1)フレームレベルで時間的な識別性を維持しながらクエリの関連性を最大化する差分キーフレーム選択と、(2)パッチレベルで非キーフレーム中のクエリに有効な特徴を維持する差分特徴マージによって、1時間の動画を“混合精度”で処理する階層型動画像言語モデルである。従って、ViLaMPはキーフレーム内の全情報を保持する一方で、非キーフレームを最も顕著な特徴に縮小し、混合精度の学習に似ている。広範な実験により、ViLaMPが4つのビデオ理解ベンチマークにおいて、特に長編コンテンツにおいて優れた性能を発揮することが実証された。特に、ViLaMPは1つのNVIDIA A100 GPUで超長時間動画(最大10Kフレーム)を処理することができ、最先端の性能を維持しながら大幅な計算効率を達成しています。
要約(オリジナル)
Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLaMP, a hierarchical video-language model that processes hour-long videos at “mixed precision” through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLaMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLaMP’s superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLaMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance.
arxiv情報
| 著者 | Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan |
| 発行日 | 2025-04-03 09:55:09+00:00 |
| arxivサイト | arxiv_id(pdf) |