UniFormerV2: Spatiotemporal Learning by Arming Image ViTs with Video UniFormer

要約

差別的な時空間表現を学習することは、ビデオ理解の重要な問題です。
最近、ビジョン トランスフォーマー (ViTs) は、長期的なビデオへの依存を自己注意で学習する能力を示しています。
残念ながら、トークン間の盲目的なグローバル比較により、ローカルビデオの冗長性への取り組みには限界があります。
UniFormer は、トランスフォーマー形式のリレーション アグリゲーターとして畳み込みと自己注意を統合することにより、この問題を首尾よく軽減しました。
ただし、このモデルは、ビデオで微調整する前に、面倒で複雑な画像事前トレーニング フレーズを必要とします。
これにより、実際の幅広い使用が妨げられます。
それどころか、オープンソースの ViT はすぐに利用でき、豊富な画像監視機能を備えた十分に事前トレーニングされています。
これらの観察に基づいて、事前トレーニング済みの ViT を効率的な UniFormer 設計で武装することにより、ビデオ ネットワークの強力なファミリを構築するための一般的なパラダイムを提案します。
UniFormer ブロックの簡潔なスタイルを継承しているため、このファミリを UniFormerV2 と呼びます。
ただし、ViT と UniFormer の両方の利点をシームレスに統合することで、精度と計算の好ましいバランスを可能にする、まったく新しいローカルおよびグローバル リレーション アグリゲーターが含まれています。
当社の UniFormerV2 は追加機能なしで、シーン関連の Kinetics-400/600/700 および Moments in Time、時間関連の Something-Something V1/V2 を含む 8 つの一般的なビデオ ベンチマークで最先端の認識パフォーマンスを実現します。
、トリミングされていないActivityNetおよびHACS。
特に、私たちの知る限りでは、Kinetics-400 で 90% のトップ 1 精度を達成した最初のモデルです。
コードは https://github.com/OpenGVLab/UniFormerV2 で入手できます。

要約(オリジナル)

Learning discriminative spatiotemporal representation is the key problem of video understanding. Recently, Vision Transformers (ViTs) have shown their power in learning long-term video dependency with self-attention. Unfortunately, they exhibit limitations in tackling local video redundancy, due to the blind global comparison among tokens. UniFormer has successfully alleviated this issue, by unifying convolution and self-attention as a relation aggregator in the transformer format. However, this model has to require a tiresome and complicated image-pretraining phrase, before being finetuned on videos. This blocks its wide usage in practice. On the contrary, open-sourced ViTs are readily available and well-pretrained with rich image supervision. Based on these observations, we propose a generic paradigm to build a powerful family of video networks, by arming the pretrained ViTs with efficient UniFormer designs. We call this family UniFormerV2, since it inherits the concise style of the UniFormer block. But it contains brand-new local and global relation aggregators, which allow for preferable accuracy-computation balance by seamlessly integrating advantages from both ViTs and UniFormer. Without any bells and whistles, our UniFormerV2 gets the state-of-the-art recognition performance on 8 popular video benchmarks, including scene-related Kinetics-400/600/700 and Moments in Time, temporal-related Something-Something V1/V2, untrimmed ActivityNet and HACS. In particular, it is the first model to achieve 90% top-1 accuracy on Kinetics-400, to our best knowledge. Code will be available at https://github.com/OpenGVLab/UniFormerV2.

arxiv情報

著者 Kunchang Li,Yali Wang,Yinan He,Yizhuo Li,Yi Wang,Limin Wang,Yu Qiao
発行日 2022-11-17 14:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク