Expanding Language-Image Pretrained Models for General Video Recognition

要約

対照的言語-画像事前学習は、ウェブスケールデータからの視覚-テキスト結合表現の学習において大きな成功を収め、様々な画像タスクに対して顕著な「ゼロショット」汎化能力を示している。しかし、このような新しい言語-画像前知識学習法をどのように効果的にビデオ領域に拡張するかは、まだ未解決の問題である。本研究では、新しいモデルをゼロから事前学習するのではなく、事前学習した言語-画像モデルを直接動画像認識に適応させるという、シンプルかつ効果的なアプローチを提示する。より具体的には、時間次元に沿ったフレームの長距離依存関係を捉えるために、フレーム間で明示的に情報を交換するフレーム間注意機構を提案する。このようなモジュールは軽量であり、事前に学習された言語-画像モデルにシームレスにプラグインすることができる。さらに、我々は映像に特化したプロンプト方式を提案し、映像の内容情報を活用して、識別可能なテキストプロンプトを生成する。広範な実験により、我々のアプローチが効果的であり、異なるビデオ認識シナリオに一般化できることが実証された。特に、完全教師ありの設定では、Kinectics-400において、Swin-LやViViT-Hと比較して12倍少ないFLOPsで、87.1%のトップ1精度を達成することができました。ゼロショット実験では、2つの一般的なプロトコルにおいて、我々のアプローチは現在の最先端手法を+7.6%、+14.9%上回るトップ1精度を達成しています。また,少数ショット実験では,ラベル付きデータが極めて少ない場合,本アプローチは従来の最良手法を+32.1%および+23.1%上回る性能を示した.コードとモデルは https://aka.ms/X-CLIP で公開されています。

要約(オリジナル)

Contrastive language-image pretraining has shown great success in learning visual-textual joint representation from web-scale data, demonstrating remarkable ‘zero-shot’ generalization ability for various image tasks. However, how to effectively expand such new language-image pretraining methods to video domains is still an open problem. In this work, we present a simple yet effective approach that adapts the pretrained language-image models to video recognition directly, instead of pretraining a new model from scratch. More concretely, to capture the long-range dependencies of frames along the temporal dimension, we propose a cross-frame attention mechanism that explicitly exchanges information across frames. Such module is lightweight and can be plugged into pretrained language-image models seamlessly. Moreover, we propose a video-specific prompting scheme, which leverages video content information for generating discriminative textual prompts. Extensive experiments demonstrate that our approach is effective and can be generalized to different video recognition scenarios. In particular, under fully-supervised settings, our approach achieves a top-1 accuracy of 87.1% on Kinectics-400, while using 12 times fewer FLOPs compared with Swin-L and ViViT-H. In zero-shot experiments, our approach surpasses the current state-of-the-art methods by +7.6% and +14.9% in terms of top-1 accuracy under two popular protocols. In few-shot scenarios, our approach outperforms previous best methods by +32.1% and +23.1% when the labeled data is extremely limited. Code and models are available at https://aka.ms/X-CLIP

arxiv情報

著者 Bolin Ni,Houwen Peng,Minghao Chen,Songyang Zhang,Gaofeng Meng,Jianlong Fu,Shiming Xiang,Haibin Ling
発行日 2022-08-04 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク