要約
ドローン カメラ ベースの人間活動認識 (HAR) は、過去数年間、コンピューター ビジョン研究コミュニティから大きな注目を集めてきました。
堅牢で効率的な HAR システムは、ビデオ監視、群集行動分析、スポーツ分析、人間とコンピューターの相互作用などの分野で極めて重要な役割を果たします。
難しいのは、複雑なポーズ、さまざまな視点の理解、アクションが行われる環境シナリオです。
このような複雑さに対処するために、このペーパーでは、グローバルな加重時間融合結果を取得するためにまばらにサンプリングされたビデオフレームを利用する、新しいスパース加重時間融合 (SWTF) モジュールを提案します。
提案された SWTF は 2 つのコンポーネントに分割されます。
まず、与えられたフレーム セットをまばらにサンプリングする時間セグメント ネットワーク。
2 つ目は、オプティカル フローから派生した特徴マップと未加工の RGB 画像の融合を組み込んだ重み付き時間融合です。
これに続いてベースネットワークが続きます。これは、畳み込みニューラルネットワークモジュールと、アクティビティ認識を提供する完全に接続されたレイヤーで構成されています。
SWTF ネットワークは、既存のディープ CNN アーキテクチャへのプラグイン モジュールとして使用できます。別の時間ストリームの必要性を排除することで、時間情報を学習するように最適化します。
これは、Okutama、MOD20、Drone-Action という 3 つの公開ベンチマーク データセットで評価されています。
提案されたモデルは、それぞれのデータセットで 72.76%、92.56%、および 78.86% の精度を達成し、それによって以前の最先端のパフォーマンスを大幅に上回っています。
要約(オリジナル)
Drone-camera based human activity recognition (HAR) has received significant attention from the computer vision research community in the past few years. A robust and efficient HAR system has a pivotal role in fields like video surveillance, crowd behavior analysis, sports analysis, and human-computer interaction. What makes it challenging are the complex poses, understanding different viewpoints, and the environmental scenarios where the action is taking place. To address such complexities, in this paper, we propose a novel Sparse Weighted Temporal Fusion (SWTF) module to utilize sparsely sampled video frames for obtaining global weighted temporal fusion outcome. The proposed SWTF is divided into two components. First, a temporal segment network that sparsely samples a given set of frames. Second, weighted temporal fusion, that incorporates a fusion of feature maps derived from optical flow, with raw RGB images. This is followed by base-network, which comprises a convolutional neural network module along with fully connected layers that provide us with activity recognition. The SWTF network can be used as a plug-in module to the existing deep CNN architectures, for optimizing them to learn temporal information by eliminating the need for a separate temporal stream. It has been evaluated on three publicly available benchmark datasets, namely Okutama, MOD20, and Drone-Action. The proposed model has received an accuracy of 72.76%, 92.56%, and 78.86% on the respective datasets thereby surpassing the previous state-of-the-art performances by a significant margin.
arxiv情報
| 著者 | Santosh Kumar Yadav,Esha Pahwa,Achleshwar Luthra,Kamlesh Tiwari,Hari Mohan Pandey,Peter Corcoran |
| 発行日 | 2022-11-10 12:45:43+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google