要約
人間の行動を検出することは、自律型ロボットや車両にとって重要なタスクであり、多くの場合、精度を向上させるために様々なデータモダリティを統合する必要がある。本研究では、スケルトンと視覚的手がかりに基づく人間行動認識(Human Action Recognition: HAR)の新しいアプローチを紹介する。我々の手法は、スケルトンエンコーダにおける特徴抽出プロセスをガイドするために言語モデルを活用する。具体的には、特徴表現を最適化するために、スケルトンモダリティを条件とした学習可能なプロンプトを言語モデルに採用する。さらに、モダリティの高次元性に対処するために、注意と変換機構を組み込んだ顕著な融合モジュールを用いて、デュアルモダリティ特徴を結合する融合機構を提案する。この融合処理により、情報量の多いビデオフレームと身体関節を優先し、人間の動作の認識精度を向上させる。さらに、建設現場における実際のロボットアプリケーションに合わせた、視覚、骨格、深度データのモダリティを特徴とする、VolvoConstActと名付けられた新しいデータセットを紹介する。このデータセットは、現実世界の建設現場で必要なタスクを自律型建設機械に指示するための機械学習モデルの訓練と評価を容易にする役割を果たす。我々のアプローチを評価するために、我々のデータセットと、広く使われている3つの公開データセット、NTU-RGB+D、NTU-RGB+D120、NW-UCLAで実験を行った。その結果、我々の提案手法は全てのデータセットにおいて有望な性能を達成し、その頑健性と様々なアプリケーションへの可能性を実証した。コードとデータセットは以下から入手可能: https://mmahdavian.github.io/ls_har/
要約(オリジナル)
Detecting human actions is a crucial task for autonomous robots and vehicles, often requiring the integration of various data modalities for improved accuracy. In this study, we introduce a novel approach to Human Action Recognition (HAR) based on skeleton and visual cues. Our method leverages a language model to guide the feature extraction process in the skeleton encoder. Specifically, we employ learnable prompts for the language model conditioned on the skeleton modality to optimize feature representation. Furthermore, we propose a fusion mechanism that combines dual-modality features using a salient fusion module, incorporating attention and transformer mechanisms to address the modalities’ high dimensionality. This fusion process prioritizes informative video frames and body joints, enhancing the recognition accuracy of human actions. Additionally, we introduce a new dataset tailored for real-world robotic applications in construction sites, featuring visual, skeleton, and depth data modalities, named VolvoConstAct. This dataset serves to facilitate the training and evaluation of machine learning models to instruct autonomous construction machines for performing necessary tasks in the real world construction zones. To evaluate our approach, we conduct experiments on our dataset as well as three widely used public datasets, NTU-RGB+D, NTU-RGB+D120 and NW-UCLA. Results reveal that our proposed method achieves promising performance across all datasets, demonstrating its robustness and potential for various applications. The codes and dataset are available at: https://mmahdavian.github.io/ls_har/
arxiv情報
著者 | Mohammad Mahdavian,Mohammad Loni,Mo Chen |
発行日 | 2024-10-02 19:10:23+00:00 |
arxivサイト | arxiv_id(pdf) |