要約
この論文では、野生での身体活動中に活動している筋肉領域を特定することを目的として、ビデオベースの活性化筋群推定 (AMGE) という新しいタスクに取り組みます。
この目的のために、135 の異なるアクティビティと 20 のラベル付き筋肉グループを含む 15,000 を超えるビデオ クリップを特徴とする MuscleMap データセットを提供します。
このデータセットは、柔軟な環境制約下でのスポーツおよびリハビリテーション医学における複数のビデオベースのアプリケーションへの展望を開きます。
提案された MuscleMap データセットは、特に野外での高強度インターバル トレーニング (HIIT) 身体運動をターゲットとした YouTube ビデオで構築されています。
AMGE モデルを現実の状況に適用できるようにするには、トレーニング中に存在しないさまざまな種類の身体活動や、活性化された筋肉の新しい組み合わせをモデルが適切に一般化できることを確認することが重要です。
これを達成するために、私たちのベンチマークは、モデルがトレーニング セットから除外されたアクティビティ タイプにさらされる評価設定もカバーしています。
私たちの実験では、AMGE タスクに適応した既存のアーキテクチャの一般化可能性が依然として課題であることが明らかになりました。
したがって、我々は、ビデオトランスフォーマーモデルと、マルチ分類トークンに対して実行される新しいクロスモーダル知識蒸留を備えたスケルトンベースのグラフ畳み込みモデルの両方の間のマルチモダリティ特徴融合メカニズムを採用する、新しいアプローチであるTransM3Eも提案します。
提案された方法は、これまでに見られたものと新しい種類の身体活動の両方を扱う際に、一般的なビデオ分類モデルをすべて上回ります。
データベースとコードは https://github.com/KPeng9510/MuscleMap にあります。
要約(オリジナル)
In this paper, we tackle the new task of video-based Activated Muscle Group Estimation (AMGE) aiming at identifying active muscle regions during physical activity in the wild. To this intent, we provide the MuscleMap dataset featuring >15K video clips with 135 different activities and 20 labeled muscle groups. This dataset opens the vistas to multiple video-based applications in sports and rehabilitation medicine under flexible environment constraints. The proposed MuscleMap dataset is constructed with YouTube videos, specifically targeting High-Intensity Interval Training (HIIT) physical exercise in the wild. To make the AMGE model applicable in real-life situations, it is crucial to ensure that the model can generalize well to numerous types of physical activities not present during training and involving new combinations of activated muscles. To achieve this, our benchmark also covers an evaluation setting where the model is exposed to activity types excluded from the training set. Our experiments reveal that the generalizability of existing architectures adapted for the AMGE task remains a challenge. Therefore, we also propose a new approach, TransM3E, which employs a multi-modality feature fusion mechanism between both the video transformer model and the skeleton-based graph convolution model with novel cross-modal knowledge distillation executed on multi-classification tokens. The proposed method surpasses all popular video classification models when dealing with both, previously seen and new types of physical activities. The database and code can be found at https://github.com/KPeng9510/MuscleMap.
arxiv情報
著者 | Kunyu Peng,David Schneider,Alina Roitberg,Kailun Yang,Jiaming Zhang,Chen Deng,Kaiyu Zhang,M. Saquib Sarfraz,Rainer Stiefelhagen |
発行日 | 2024-08-06 02:39:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google