Multi-Stage Based Feature Fusion of Multi-Modal Data for Human Activity Recognition

要約

人間のニーズを適切に支援するために、人間活動認識(HAR)システムには、複数のモダリティからの情報を融合する能力が必要である。我々の仮説は、視覚と非視覚のマルチモーダルセンサは、他のモダリティの限界に対処して、補完的な情報を提供する傾向があるということである。本研究では、RGBビデオとIMUセンサーからの特徴を効果的に組み合わせることを学習するマルチモーダルフレームワークを提案し、MMActとUTD-MHADデータセットに対するそのロバスト性を示している。我々のモデルは2段階で学習され、第1段階では、各入力エンコーダが効果的に特徴を抽出することを学習し、第2段階では、これらの個々の特徴を結合することを学習する。UTD-MHADデータセットでは映像のみ、IMUのみのセットアップと比較して22%、11%、MMActデータセットでは20%、12%という大幅な改善を示しています。広範な実験を通して、ゼロショット設定と限定的なアノテーションデータ設定における我々のモデルの頑健性を示す。さらに、より多くの入力モダリティを用いる最新の手法と比較し、我々の手法はより困難なMMactデータセットにおいて大幅に性能が向上し、UTD-MHADデータセットでは同程度の性能を発揮することを示す。

要約(オリジナル)

To properly assist humans in their needs, human activity recognition (HAR) systems need the ability to fuse information from multiple modalities. Our hypothesis is that multimodal sensors, visual and non-visual tend to provide complementary information, addressing the limitations of other modalities. In this work, we propose a multi-modal framework that learns to effectively combine features from RGB Video and IMU sensors, and show its robustness for MMAct and UTD-MHAD datasets. Our model is trained in two-stage, where in the first stage, each input encoder learns to effectively extract features, and in the second stage, learns to combine these individual features. We show significant improvements of 22% and 11% compared to video only and IMU only setup on UTD-MHAD dataset, and 20% and 12% on MMAct datasets. Through extensive experimentation, we show the robustness of our model on zero shot setting, and limited annotated data setting. We further compare with state-of-the-art methods that use more input modalities and show that our method outperforms significantly on the more difficult MMact dataset, and performs comparably in UTD-MHAD dataset.

arxiv情報

著者 Hyeongju Choi,Apoorva Beedu,Harish Haresamudram,Irfan Essa
発行日 2022-11-08 15:48:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク