要約
長型のビデオ処理は、拡張された時間シーケンスを処理するための高い計算コストにより、視覚言語モデル(VLM)に根本的に挑戦します。
既存のトークン剪定と機能のマージメソッドは、多くの場合、重要な時間的依存関係を犠牲にしたり、セマンティック情報を希釈したりします。
差別的な蒸留を導入します。これは、冗長性を抑制しながら、タスク関連の情報を体系的に保存する原則的なアプローチです。
この原則に基づいて、2つのキーメカニズムを介して「混合精度」で1時間のビデオを処理する階層的なビデオ言語モデルであるVilampを開発します。
したがって、Vilampは、キーフレームの完全な情報を保持しながら、キーフレーム以外の機能を最も顕著な機能に削減し、混合精液トレーニングに似ています。
広範な実験は、4つのビデオ理解ベンチマークにわたるVilampの優れたパフォーマンスを示しています。
特に、Vilampは単一のNVIDIA A100 GPUで超長いビデオ(最大10kフレーム)を処理し、最先端のパフォーマンスを維持しながら、かなりの計算効率を達成できます。
要約(オリジナル)
Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLaMP, a hierarchical video-language model that processes hour-long videos at “mixed precision” through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLaMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLaMP’s superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLaMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance.
arxiv情報
著者 | Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan |
発行日 | 2025-04-21 15:12:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google