要約
人間行動認識(HAR)は、人間の行動を理解し、各行動にラベルを割り当てることを目的としています。
用途が広いため、コンピュータビジョンの分野で注目を集めています。
人間の行動は、RGB、スケルトン、深度、赤外線、点群、イベントストリーム、オーディオ、加速度、レーダー、WiFi信号などのさまざまなデータモダリティを使用して表すことができます。これらのデータは、有用でありながら明確な情報のさまざまなソースをエンコードし、さまざまな利点があります。
アプリケーションシナリオについて。
その結果、多くの既存の研究は、さまざまなモダリティを使用して、HARのさまざまなタイプのアプローチを調査しようと試みました。
この論文では、入力データのモダリティのタイプに基づいて、HARの深層学習方法の最近の進歩に関する包括的な調査を提示します。
具体的には、融合ベースおよび共同学習ベースのフレームワークを含む、単一データモダリティおよび複数データモダリティの現在の主流の深層学習方法を確認します。
また、HARのいくつかのベンチマークデータセットの比較結果を、洞察に満ちた観察と刺激的な将来の研究の方向性とともに提示します。
要約(オリジナル)
Human Action Recognition (HAR) aims to understand human behavior and assign a label to each action. It has a wide range of applications, and therefore has been attracting increasing attention in the field of computer vision. Human actions can be represented using various data modalities, such as RGB, skeleton, depth, infrared, point cloud, event stream, audio, acceleration, radar, and WiFi signal, which encode different sources of useful yet distinct information and have various advantages depending on the application scenarios. Consequently, lots of existing works have attempted to investigate different types of approaches for HAR using various modalities. In this paper, we present a comprehensive survey of recent progress in deep learning methods for HAR based on the type of input data modality. Specifically, we review the current mainstream deep learning methods for single data modalities and multiple data modalities, including the fusion-based and the co-learning-based frameworks. We also present comparative results on several benchmark datasets for HAR, together with insightful observations and inspiring future research directions.
arxiv情報
著者 | Zehua Sun,Qiuhong Ke,Hossein Rahmani,Mohammed Bennamoun,Gang Wang,Jun Liu |
発行日 | 2022-06-21 13:42:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google