AdaFocusV3: On Unified Spatial-temporal Dynamic Video Recognition

要約

最近の研究では、時間的および空間的な冗長性を減らすことが、効率的なビデオ認識に向けた効果的なアプローチであることが明らかになりました。たとえば、計算の大部分をフレームのタスクに関連するサブセットまたは各フレームの最も価値のある画像領域に割り当てます。
ただし、ほとんどの既存の作品では、通常、いずれかのタイプの冗長性がモデル化されていません。
この論文では、最近提案された AdaFocusV2 アルゴリズムに基づく時空間動的計算の統一された定式化を検討し、AdaFocusV3 フレームワークの改善に貢献しています。
私たちの方法は、いくつかの小さいが有益な 3D ビデオ キューブでのみ高価な大容量ネットワークをアクティブにすることで、計算コストを削減します。
これらの立方体は、フレームの高さ、幅、およびビデオの長さによって形成されるスペースから切り取られますが、それらの位置は、軽量のポリシー ネットワークを使用してサンプルごとに適応的に決定されます。
テスト時に、各ビデオに対応するキューブの数が動的に構成されます。つまり、ビデオ キューブは、十分に信頼できる予測が生成されるまで順次処理されます。
特に、AdaFocusV3 は、深層特徴の内挿を使用して微分不可能なクロッピング操作を近似することで効果的にトレーニングできます。
6 つのベンチマーク データセット (つまり、ActivityNet、FCVID、Mini-Kinetics、Something-Something V1&V2、および Diving48) に関する広範な実証結果は、モデルが競合するベースラインよりもかなり効率的であることを示しています。

要約(オリジナル)

Recent research has revealed that reducing the temporal and spatial redundancy are both effective approaches towards efficient video recognition, e.g., allocating the majority of computation to a task-relevant subset of frames or the most valuable image regions of each frame. However, in most existing works, either type of redundancy is typically modeled with another absent. This paper explores the unified formulation of spatial-temporal dynamic computation on top of the recently proposed AdaFocusV2 algorithm, contributing to an improved AdaFocusV3 framework. Our method reduces the computational cost by activating the expensive high-capacity network only on some small but informative 3D video cubes. These cubes are cropped from the space formed by frame height, width, and video duration, while their locations are adaptively determined with a light-weighted policy network on a per-sample basis. At test time, the number of the cubes corresponding to each video is dynamically configured, i.e., video cubes are processed sequentially until a sufficiently reliable prediction is produced. Notably, AdaFocusV3 can be effectively trained by approximating the non-differentiable cropping operation with the interpolation of deep features. Extensive empirical results on six benchmark datasets (i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V1&V2 and Diving48) demonstrate that our model is considerably more efficient than competitive baselines.

arxiv情報

著者 Yulin Wang,Yang Yue,Xinhong Xu,Ali Hassani,Victor Kulikov,Nikita Orlov,Shiji Song,Humphrey Shi,Gao Huang
発行日 2022-09-27 15:30:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク