Video Mobile-Former: Video Recognition with Efficient Global Spatial-temporal Modeling

要約

Transformer ベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成しています。
これらのモデルは、自己注意メカニズムの恩恵を受けて、CNN ベースのモデルと比較して、長期的な依存関係をモデル化する強力な能力を示しています。
ただし、膨大な数のトークンに加えて自己注意の 2 次複雑さから生じるかなりの計算オーバーヘッドにより、モバイル デバイスなどのリソースが限られているアプリケーションでの既存のビデオ トランスフォーマーの使用が制限されます。
このホワイト ペーパーでは、Mobile-Former を Video Mobile-Former に拡張します。これにより、ビデオ アーキテクチャが、ローカル コンテキスト モデリング用の軽量 3D-CNN と、グローバル インタラクション モデリング用の Transformer モジュールに並行して分離されます。
ビデオ内の多数のローカル パッチ間で自己注意を計算することによって発生する大幅な計算コストを回避するために、トランスフォーマーのビデオ全体に非常に少数のグローバル トークン (たとえば 6) を使用して、クロスを使用して 3D-CNN と情報を交換することを提案します。
-注意メカニズム。
Video Mobile-Former は、効率的なグローバルな時空間モデリングを通じて、代替の軽量ベースラインのビデオ認識パフォーマンスを大幅に改善し、さまざまなビデオ認識タスクで 500M から 6G の合計 FLOP までの低 FLOP 体制で他の効率的な CNN ベースのモデルよりも優れています。
Video Mobile-Former は、計算量を 1G FLOP 内に制限する最初の Transformer ベースのビデオ モデルであることは注目に値します。

要約(オリジナル)

Transformer-based models have achieved top performance on major video recognition benchmarks. Benefiting from the self-attention mechanism, these models show stronger ability of modeling long-range dependencies compared to CNN-based models. However, significant computation overheads, resulted from the quadratic complexity of self-attention on top of a tremendous number of tokens, limit the use of existing video transformers in applications with limited resources like mobile devices. In this paper, we extend Mobile-Former to Video Mobile-Former, which decouples the video architecture into a lightweight 3D-CNNs for local context modeling and a Transformer modules for global interaction modeling in a parallel fashion. To avoid significant computational cost incurred by computing self-attention between the large number of local patches in videos, we propose to use very few global tokens (e.g., 6) for a whole video in Transformers to exchange information with 3D-CNNs with a cross-attention mechanism. Through efficient global spatial-temporal modeling, Video Mobile-Former significantly improves the video recognition performance of alternative lightweight baselines, and outperforms other efficient CNN-based models at the low FLOP regime from 500M to 6G total FLOPs on various video recognition tasks. It is worth noting that Video Mobile-Former is the first Transformer-based video model which constrains the computational budget within 1G FLOPs.

arxiv情報

著者 Rui Wang,Zuxuan Wu,Dongdong Chen,Yinpeng Chen,Xiyang Dai,Mengchen Liu,Luowei Zhou,Lu Yuan,Yu-Gang Jiang
発行日 2022-08-25 17:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク