A Comparative Study of Human Activity Recognition: Motion, Tactile, and multi-modal Approaches

要約

人間の活動認識(HAR)は、効果的な人間ロボットコラボレーション(HRC)に不可欠であり、ロボットが人間の行動を解釈して対応できるようにします。
この研究では、ビジョンベースの触覚センサーが15のアクティビティを分類し、そのパフォーマンスをIMUベースのデータグローブと比較する能力を評価します。
さらに、触覚データとモーションデータを組み合わせたマルチモーダルフレームワークを提案して、補完的な強さを活用します。
3つのアプローチを検討しました:IMUデータを使用したモーションベースの分類(MBC)、単一またはデュアルビデオストリームを使用した触覚ベースの分類(TBC)、および両方を統合するマルチモーダル分類(MMC)。
セグメント化されたデータセットのオフライン検証では、制御された条件下での各構成の精度を評価し、継続的なアクションシーケンスのオンライン検証でオンラインパフォーマンスをテストしました。
結果は、マルチモーダルアプローチが一貫してパフォーマンスのある単一モダリティ方法を上回り、触覚とモーションセンシングを統合して共同ロボット工学のHARシステムを強化する可能性を強調しました。

要約(オリジナル)

Human activity recognition (HAR) is essential for effective Human-Robot Collaboration (HRC), enabling robots to interpret and respond to human actions. This study evaluates the ability of a vision-based tactile sensor to classify 15 activities, comparing its performance to an IMU-based data glove. Additionally, we propose a multi-modal framework combining tactile and motion data to leverage their complementary strengths. We examined three approaches: motion-based classification (MBC) using IMU data, tactile-based classification (TBC) with single or dual video streams, and multi-modal classification (MMC) integrating both. Offline validation on segmented datasets assessed each configuration’s accuracy under controlled conditions, while online validation on continuous action sequences tested online performance. Results showed the multi-modal approach consistently outperformed single-modality methods, highlighting the potential of integrating tactile and motion sensing to enhance HAR systems for collaborative robotics.

arxiv情報

著者 Valerio Belcamino,Nhat Minh Dinh Le,Quan Khanh Luu,Alessandro Carfì,Van Anh Ho,Fulvio Mastrogiovanni
発行日 2025-05-13 15:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク