Integrating Features for Recognizing Human Activities through Optimized Parameters in Graph Convolutional Networks and Transformer Architectures

要約

人間の活動認識は、コンピューター ビジョン、マシン ビジョン、ディープラーニング技術を使用して人間の行動を分類する主要な研究分野です。
ディープラーニングの分野は、人間のダイナミクスを捉えるのに非常に効果的なアーキテクチャーによって大幅に進歩しました。
この研究は、アクティビティ認識の精度に対する特徴融合の影響を強調しています。
この技術は、空間的および時間的特徴を理解する能力が限られているため、活動を特定することが困難であるという従来のモデルの限界に対処します。
この技術では、公的に利用可能な 4 つのデータセット (HuGaDB、PKU-MMD、LARa、TUG) から取得した感覚データを使用します。
2 つの深層学習モデル、具体的には Transformer モデルと Parameter-Optimized Graph Convolutional Network (PO-GCN) の精度と F1 スコアが、これらのデータセットを使用して評価されました。
特徴融合技術では、両方のモデルからの最終層の特徴を統合し、分類器に入力しました。
経験的証拠は、PO-GCN がアクティビティ認識において標準モデルよりも優れていることを示しています。
HuGaDB は、精度が 2.3% 向上し、F1 スコアが 2.2% 増加したことが実証されました。
TUG では、精度が 5% 向上し、F1 スコアが 0.5% 向上しました。
一方、LARa と PKU-MMD はそれぞれ 64% と 69% という低い精度を達成しました。
これは、機能の統合により、Transformer モデルと PO-GCN の両方のパフォーマンスが向上したことを示しています。

要約(オリジナル)

Human activity recognition is a major field of study that employs computer vision, machine vision, and deep learning techniques to categorize human actions. The field of deep learning has made significant progress, with architectures that are extremely effective at capturing human dynamics. This study emphasizes the influence of feature fusion on the accuracy of activity recognition. This technique addresses the limitation of conventional models, which face difficulties in identifying activities because of their limited capacity to understand spatial and temporal features. The technique employs sensory data obtained from four publicly available datasets: HuGaDB, PKU-MMD, LARa, and TUG. The accuracy and F1-score of two deep learning models, specifically a Transformer model and a Parameter-Optimized Graph Convolutional Network (PO-GCN), were evaluated using these datasets. The feature fusion technique integrated the final layer features from both models and inputted them into a classifier. Empirical evidence demonstrates that PO-GCN outperforms standard models in activity recognition. HuGaDB demonstrated a 2.3% improvement in accuracy and a 2.2% increase in F1-score. TUG showed a 5% increase in accuracy and a 0.5% rise in F1-score. On the other hand, LARa and PKU-MMD achieved lower accuracies of 64% and 69% respectively. This indicates that the integration of features enhanced the performance of both the Transformer model and PO-GCN.

arxiv情報

著者 Mohammad Belal,Taimur Hassan,Abdelfatah Hassan,Nael Alsheikh,Noureldin Elhendawi,Irfan Hussain
発行日 2024-08-29 11:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク