MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

要約

人間の活動認識(HAR)は、ヘルスケア、スポーツ、フィットネス、セキュリティなど、幅広い分野のアプリケーションを備えた人工知能における長年の問題です。
現実世界の設定におけるHARのパフォーマンスは、取得できる入力信号のタイプと品質に強く依存しています。
シーンの遮るもののない高品質のカメラビューを考えると、特にファンデーションモデルと併せてコンピュータービジョンシステムは、今日では複雑なアクティビティをかなり確実に区別できます。
一方、ウェアラブルセンサーなどのモダリティを使用した認識(携帯電話やスマートウォッチなど、より広く利用可能なことが多いことが多いことが多い)は、より少ない情報が含まれており、ラベル付けされたトレーニングデータを取得するのが難しいため、より困難な問題です。

ラベル付きデータの必要性を軽減するために、この作業に包括的なフィットネスマルチモーダルアクティビティデータセット(FIMAD)を紹介します。これは、提案された事前トレーニング方法Mujo(マルチモーダルジョイントフィーチャスペース学習)で使用して、さまざまなモダリティにわたってHARパフォーマンスを強化できます。
FimadはYouTube Fitnessビデオを使用して作成され、並行ビデオ、言語、ポーズ、およびシミュレートされたIMUセンサーデータが含まれています。
Mujoはこのデータセットを利用して、これらのモダリティの共同機能スペースを学習します。
Fimadで事前に訓練された分類器が、MM-Fit、Myogym、Motionsense、MHealthなどの実際のHARデータセットのパフォーマンスを向上させることができることを示しています。
たとえば、MM-Fitでは、トレーニングデータの2%のみで微調整されている場合は最大0.855のマクロF1スコア、分類タスクに完全なトレーニングセットを利用する場合は0.942を達成します。
私たちのアプローチを他の自己監督のものと比較し、それらとは異なり、ベースラインネットワークのパフォーマンスと比較して一貫して改善すると同時に、データ効率を向上させることを示しています。

要約(オリジナル)

Human activity recognition (HAR) is a long-standing problem in artificial intelligence with applications in a broad range of areas, including healthcare, sports and fitness, security, and more. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundation models, can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g., in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. To alleviate the need for labeled data, we introduce our comprehensive Fitness Multimodal Activity Dataset (FiMAD) in this work, which can be used with the proposed pre-training method MuJo (Multimodal Joint Feature Space Learning) to enhance HAR performance across various modalities. FiMAD was created using YouTube fitness videos and contains parallel video, language, pose, and simulated IMU sensor data. MuJo utilizes this dataset to learn a joint feature space for these modalities. We show that classifiers pre-trained on FiMAD can increase the performance on real HAR datasets such as MM-Fit, MyoGym, MotionSense, and MHEALTH. For instance, on MM-Fit, we achieve a Macro F1-Score of up to 0.855 when fine-tuning on only 2% of the training data and 0.942 when utilizing the complete training set for classification tasks. We compare our approach with other self-supervised ones and show that, unlike them, ours consistently improves compared to the baseline network performance while also providing better data efficiency.

arxiv情報

著者 Stefan Gerd Fritsch,Cennet Oguz,Vitor Fortes Rey,Lala Ray,Maximilian Kiefer-Emmanouilidis,Paul Lukowicz
発行日 2025-02-06 12:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク