OmniCLIP: Adapting CLIP for Video Recognition with Spatial-Temporal Omni-Scale Feature Learning

要約

最近の視覚言語モデル (VLM) \textit{e.g.} CLIP は、ビデオ認識において大きな進歩を遂げました。
空間特徴の抽出において強力な視覚的バックボーンによって改善がもたらされたにもかかわらず、CLIP は、ビデオ認識に不可欠な時空間特徴の捕捉と統合においてはまだ不十分です。
この論文では、オムニスケール特徴と呼ぶ、空間的、時間的、動的時空間スケールを含む包括的な特徴の学習に焦点を当て、CLIP をビデオ認識に適応させるフレームワークである OmniCLIP を提案します。
これは、並列時間アダプター (PTA) を含む時空間ブロックの設計によって実現され、効率的な時間モデリングが可能になります。
さらに、動的なオブジェクトの空間特徴をキャプチャするためのセルフプロンプト ジェネレーター (SPG) モジュールを導入します。
PTA と SPG の相乗効果により、OmniCLIP はフレーム全体で変化する空間情報を識別し、時間の経過とともにオブジェクトのスケールを評価することができます。
私たちは、教師ありビデオ認識、少数ショットビデオ認識、およびゼロショット認識タスクにおいて広範な実験を行ってきました。
この結果は、特に OmniCLIP が 16 ショット設定の HMDB51 でトップ 1 の精度 74.30\% を達成し、完全なトレーニング データを使用した場合でも最近の MotionPrompt アプローチを上回ったことで、私たちの手法の有効性を示しています。
コードは \url{https://github.com/XiaoBuL/OmniCLIP} で入手できます。

要約(オリジナル)

Recent Vision-Language Models (VLMs) \textit{e.g.} CLIP have made great progress in video recognition. Despite the improvement brought by the strong visual backbone in extracting spatial features, CLIP still falls short in capturing and integrating spatial-temporal features which is essential for video recognition. In this paper, we propose OmniCLIP, a framework that adapts CLIP for video recognition by focusing on learning comprehensive features encompassing spatial, temporal, and dynamic spatial-temporal scales, which we refer to as omni-scale features. This is achieved through the design of spatial-temporal blocks that include parallel temporal adapters (PTA), enabling efficient temporal modeling. Additionally, we introduce a self-prompt generator (SPG) module to capture dynamic object spatial features. The synergy between PTA and SPG allows OmniCLIP to discern varying spatial information across frames and assess object scales over time. We have conducted extensive experiments in supervised video recognition, few-shot video recognition, and zero-shot recognition tasks. The results demonstrate the effectiveness of our method, especially with OmniCLIP achieving a top-1 accuracy of 74.30\% on HMDB51 in a 16-shot setting, surpassing the recent MotionPrompt approach even with full training data. The code is available at \url{https://github.com/XiaoBuL/OmniCLIP}.

arxiv情報

著者 Mushui Liu,Bozheng Li,Yunlong Yu
発行日 2024-08-12 13:55:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク