EAN: Event Adaptive Network for Enhanced Action Recognition

要約

動画像中の空間-時間情報を効率的にモデル化することは、行動認識において極めて重要である。この目標を達成するために、最新の手法では一般的に畳み込み演算子や非局所ブロックなどの密なインタラクションモジュールを用いている。しかし、これらの手法は動画像の多様な事象に正確に対応することができない。一方、採用されている畳み込み演算は固定スケールであるため、様々なスケールの事象に対応できない。一方、密なインタラクションモデリングパラダイムは、行動と無関係な部分が最終的な予測にさらなるノイズをもたらすため、最適とは言えない性能しか達成できない。本論文では、以下の設計を導入することで、映像コンテンツの動的な性質を調べるための統一的な行動認識フレームワークを提案する。まず、ローカルキューを抽出する際に、多様なイベントに適応的に適合するように、ダイナミックスケールの空間-時間カーネルを生成する。第二に、これらの手がかりをグローバルな映像表現に正確に集約するために、選択されたいくつかの前景オブジェクト間の相互作用のみをTransformerによってマイニングすることを提案し、これによりスパースパラダイムを得る。我々は提案するフレームワークをイベント適応型ネットワーク(EAN)と呼ぶ。局所セグメント内の短期的な動きを利用するために、我々は新規かつ効率的なLatent Motion Code (LMC) モジュールを提案し、フレームワークの性能をさらに向上させる。いくつかの大規模ビデオデータセット(Something-to-Something V1&V2、Kinetics、Diving48など)に対する広範な実験により、我々のモデルが低FLOPsで最先端または競合する性能を達成することが確認された。コードは、https://github.com/tianyuan168326/EAN-Pytorch で入手可能です。

要約(オリジナル)

Efficiently modeling spatial-temporal information in videos is crucial for action recognition. To achieve this goal, state-of-the-art methods typically employ the convolution operator and the dense interaction modules such as non-local blocks. However, these methods cannot accurately fit the diverse events in videos. On the one hand, the adopted convolutions are with fixed scales, thus struggling with events of various scales. On the other hand, the dense interaction modeling paradigm only achieves sub-optimal performance as action-irrelevant parts bring additional noises for the final prediction. In this paper, we propose a unified action recognition framework to investigate the dynamic nature of video content by introducing the following designs. First, when extracting local cues, we generate the spatial-temporal kernels of dynamic-scale to adaptively fit the diverse events. Second, to accurately aggregate these cues into a global video representation, we propose to mine the interactions only among a few selected foreground objects by a Transformer, which yields a sparse paradigm. We call the proposed framework as Event Adaptive Network (EAN) because both key designs are adaptive to the input video content. To exploit the short-term motions within local segments, we propose a novel and efficient Latent Motion Code (LMC) module, further improving the performance of the framework. Extensive experiments on several large-scale video datasets, e.g., Something-to-Something V1&V2, Kinetics, and Diving48, verify that our models achieve state-of-the-art or competitive performances at low FLOPs. Codes are available at: https://github.com/tianyuan168326/EAN-Pytorch.

arxiv情報

著者 Yuan Tian,Yichao Yan,Guangtao Zhai,Guodong Guo,Zhiyong Gao
発行日 2022-08-09 08:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク