InternVideo: General Video Foundation Models via Generative and Discriminative Learning

要約

基礎モデルは最近、コンピューター ビジョンのさまざまなダウンストリーム タスクで優れたパフォーマンスを示しました。
ただし、ほとんどの既存のビジョン基盤モデルは、画像レベルの事前トレーニングと適応に重点を置いているだけであり、動的で複雑なビデオレベルの理解タスクに限定されています。
ギャップを埋めるために、生成的および識別的な自己教師付きビデオ学習の両方を利用して、一般的なビデオ基盤モデルである InternVideo を提示します。
具体的には、InternVideo は、マスクされたビデオ モデリングとビデオ言語の対照的な学習を事前トレーニングの目的として効率的に調査し、これら 2 つの補完的なフレームワークのビデオ表現を学習可能な方法で選択的に調整して、さまざまなビデオ アプリケーションを強化します。
追加機能なしで、InternVideo は、ビデオ アクションの認識/検出、ビデオ言語の調整、オープンワールド ビデオ アプリケーションなどの広範なタスクから、39 のビデオ データセットで最先端のパフォーマンスを実現します。
特に、私たちの方法は、困難な Kinetics-400 および Something-Something V2 ベンチマークで、それぞれ 91.1% および 77.2% のトップ 1 精度を得ることができます。
これらの結果はすべて、ビデオ理解のための InternVideo の一般性を効果的に示しています。
コードは https://github.com/OpenGVLab/InternVideo で公開されます。

要約(オリジナル)

The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .

arxiv情報

著者 Yi Wang,Kunchang Li,Yizhuo Li,Yinan He,Bingkun Huang,Zhiyu Zhao,Hongjie Zhang,Jilan Xu,Yi Liu,Zun Wang,Sen Xing,Guo Chen,Junting Pan,Jiashuo Yu,Yali Wang,Limin Wang,Yu Qiao
発行日 2022-12-07 12:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク