Feature Fusion for Human Activity Recognition using Parameter-Optimized Multi-Stage Graph Convolutional Network and Transformer Models

要約

人間活動認識 (HAR) は、コンピューターとマシン ビジョン テクノロジーを使用して人間の動きを理解することを含む重要な研究分野です。
深層学習は、人間の動きのさまざまな側面を捉えるために畳み込みニューラル ネットワーク (CNN) やトランスフォーマーなどのモデルを使用して、このタスクの強力なツールとして登場しました。
この研究の主な貢献の 1 つは、空間的および時間的特徴を捕捉することで HAR 精度を向上させる特徴融合の有効性を実証したことです。これは、より正確で堅牢なアクティビティ認識システムの開発に重要な意味を持ちます。
この研究では、HuGaDB、PKU-MMD、LARa、TUG データセットからの感覚データを使用します。
PO-MS-GCN と Transformer の 2 つのモデルがトレーニングおよび評価され、PO-MS-GCN が最先端のモデルを上回りました。
HuGaDB と TUG は高い精度と f1 スコアを達成しましたが、LARa と PKU-MMD はより低いスコアを示しました。
特徴融合により、データセット全体の結果が向上しました。

要約(オリジナル)

Human activity recognition (HAR) is a crucial area of research that involves understanding human movements using computer and machine vision technology. Deep learning has emerged as a powerful tool for this task, with models such as Convolutional Neural Networks (CNNs) and Transformers being employed to capture various aspects of human motion. One of the key contributions of this work is the demonstration of the effectiveness of feature fusion in improving HAR accuracy by capturing spatial and temporal features, which has important implications for the development of more accurate and robust activity recognition systems. The study uses sensory data from HuGaDB, PKU-MMD, LARa, and TUG datasets. Two model, the PO-MS-GCN and a Transformer were trained and evaluated, with PO-MS-GCN outperforming state-of-the-art models. HuGaDB and TUG achieved high accuracies and f1-scores, while LARa and PKU-MMD had lower scores. Feature fusion improved results across datasets.

arxiv情報

著者 Mohammad Belal,Taimur Hassan,Abdelfatah Ahmed,Ahmad Aljarah,Nael Alsheikh,Irfan Hussain
発行日 2024-06-24 13:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク