3D Convolutional with Attention for Action Recognition

要約

人間の行動認識は、コンピュータビジョンにおける困難なタスクの1つです。
現在の行動認識方法は、行動の時空間依存性を学習するために計算コストの高いモデルを使用しています。
RGBチャネルとオプティカルフローを別々に利用するモデル、2ストリーム融合手法を使用するモデル、畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)ネットワークの両方で構成されるモデルは、このような複雑なモデルの例です。
さらに、このような複雑なモデルの微調整には、計算コストもかかります。
このホワイトペーパーでは、3D畳み込み層、完全接続(FC)層、注意層で構成される依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案します。これは、実装が簡単で、UCF-101データセットで競争力のあるパフォーマンスを提供します。
提案された方法は、最初に3D-CNNを介してアクションの空間的および時間的特徴を学習し、次に注意メカニズムは、モデルが認識に不可欠な特徴への注意を見つけるのに役立ちます。

要約(オリジナル)

Human action recognition is one of the challenging tasks in computer vision. The current action recognition methods use computationally expensive models for learning spatio-temporal dependencies of the action. Models utilizing RGB channels and optical flow separately, models using a two-stream fusion technique, and models consisting of both convolutional neural network (CNN) and long-short term memory (LSTM) network are few examples of such complex models. Moreover, fine-tuning such complex models is computationally expensive as well. This paper proposes a deep neural network architecture for learning such dependencies consisting of a 3D convolutional layer, fully connected (FC) layers, and attention layer, which is simpler to implement and gives a competitive performance on the UCF-101 dataset. The proposed method first learns spatial and temporal features of actions through 3D-CNN, and then the attention mechanism helps the model to locate attention to essential features for recognition.

arxiv情報

著者 Labina Shrestha,Shikha Dubey,Farrukh Olimov,Muhammad Aasim Rafique,Moongu Jeon
発行日 2022-06-05 15:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク