Gate-Shift-Fuse for Video Action Recognition

要約

タイトル:Gate-Shift-Fuseによるビデオアクション認識

要約:

– 2D CNNは画像認識の標準的なモデルであるが、ビデオ認識のための2D CNNの直接的な拡張である3D CNNは、標準的なアクション認識ベンチマークにおいて同じ成功を収めていない。
– これは、膨大なデータセットを用いたトレーニングが必要で、計算的複雑さが増したためである。
– この問題を解決するために、既存の3D kernel factorizationアプローチが提案されているが、それらはハンドデザインされた技術に基づいているため、効率性やパフォーマンスの点で問題がある。
– そこで、本論文では、新しい方法であるGate-Shift-Fuse(GSF)を提案する。これは、時空間分解における相互作用を制御し、時間を経過しながら特徴を適応的にルーティングし、データに依存して特徴を組み合わせるためのモジュールである。
– GSFは、入力テンソルを分解するためにグループ化された空間ゲーティングを活用し、分解されたテンソルを融合するためにチャンネル重み付けを使用する。
– GSFは、ほとんどのパラメータと計算のオーバーヘッドを伴わずに、既存の2D CNNに挿入することができ、効率的かつ高性能な時空間特徴抽出器に変換することができる。
– 本論文では、2つの人気のある2D CNNファミリーを使用してGSFの詳細な分析を行い、5つの標準的なアクション認識ベンチマークで最先端または競合力のあるパフォーマンスを実現する。
– コードとモデルは、https://github.com/swathikirans/GSFで公開される。

要約(オリジナル)

Convolutional Neural Networks are the de facto models for image recognition. However 3D CNNs, the straight forward extension of 2D CNNs for video recognition, have not achieved the same success on standard action recognition benchmarks. One of the main reasons for this reduced performance of 3D CNNs is the increased computational complexity requiring large scale annotated datasets to train them in scale. 3D kernel factorization approaches have been proposed to reduce the complexity of 3D CNNs. Existing kernel factorization approaches follow hand-designed and hard-wired techniques. In this paper we propose Gate-Shift-Fuse (GSF), a novel spatio-temporal feature extraction module which controls interactions in spatio-temporal decomposition and learns to adaptively route features through time and combine them in a data dependent manner. GSF leverages grouped spatial gating to decompose input tensor and channel weighting to fuse the decomposed tensors. GSF can be inserted into existing 2D CNNs to convert them into an efficient and high performing spatio-temporal feature extractor, with negligible parameter and compute overhead. We perform an extensive analysis of GSF using two popular 2D CNN families and achieve state-of-the-art or competitive performance on five standard action recognition benchmarks. Code and models will be made publicly available at https://github.com/swathikirans/GSF.

arxiv情報

著者 Swathikiran Sudhakaran,Sergio Escalera,Oswald Lanz
発行日 2023-04-13 17:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク