EZ-CLIP: Efficient Zeroshot Video Action Recognition

要約

画像とテキストのペアデータに対する視覚言語モデルの大規模な事前トレーニングにおける最近の進歩により、ゼロショット タスクに対する優れた一般化機能が実証されました。
この成功に基づいて、CLIP などの画像ベースの視覚言語モデルをビデオに適応させ、ゼロショット機能をビデオ ドメインに拡張する取り組みが行われてきました。
これらの適応は有望な結果を示していますが、かなりの計算コストがかかり、ビデオ ドメインに固有の重要な時間的側面を効果的にモデル化するのに苦労しています。
この研究では、これらの課題に対処する CLIP のシンプルかつ効率的な適応である EZ-CLIP を紹介します。
EZ-CLIP は、シームレスな時間的適応のために時間的な視覚的プロンプトを活用しており、その優れた一般化能力を維持しながら、コアの CLIP アーキテクチャに対する根本的な変更を必要としません。
さらに、時間的視覚プロンプトが動きのキャプチャに焦点を当てるように誘導する新しい学習目標を導入し、それによってビデオデータからの学習能力を強化します。
私たちは 5 つの異なるベンチマーク データセットで広範な実験を実施し、ゼロショット学習とベースから新規のビデオ アクション認識について EZ-CLIP を徹底的に評価し、数ショットの一般化の可能性も実証しました。驚くべきことに、学習可能なパラメータはわずか 520 万個です。
(以前の最良モデルの 7,110 万とは対照的に) EZ-CLIP は単一の GPU で効率的にトレーニングでき、いくつかの評価において既存のアプローチを上回っています。

要約(オリジナル)

Recent advancements in large-scale pre-training of visual-language models on paired image-text data have demonstrated impressive generalization capabilities for zero-shot tasks. Building on this success, efforts have been made to adapt these image-based visual-language models, such as CLIP, for videos extending their zero-shot capabilities to the video domain. While these adaptations have shown promising results, they come at a significant computational cost and struggle with effectively modeling the crucial temporal aspects inherent to the video domain. In this study, we present EZ-CLIP, a simple and efficient adaptation of CLIP that addresses these challenges. EZ-CLIP leverages temporal visual prompting for seamless temporal adaptation, requiring no fundamental alterations to the core CLIP architecture while preserving its remarkable generalization abilities. Moreover, we introduce a novel learning objective that guides the temporal visual prompts to focus on capturing motion, thereby enhancing its learning capabilities from video data. We conducted extensive experiments on five different benchmark datasets, thoroughly evaluating EZ-CLIP for zero-shot learning and base-to-novel video action recognition, and also demonstrating its potential for few-shot generalization.Impressively, with a mere 5.2 million learnable parameters (as opposed to the 71.1 million in the prior best model), EZ-CLIP can be efficiently trained on a single GPU, outperforming existing approaches in several evaluations.

arxiv情報

著者 Shahzad Ahmad,Sukalpa Chanda,Yogesh S Rawat
発行日 2024-01-19 12:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク