要約
この論文では、身体活動中にアクティブな筋肉領域を特定することを目的とした、ビデオベースの活性化筋群推定 (AMGE) の新しいタスクに取り組みます。
この目的のために、136 の異なるアクティビティと 20 のラベル付けされた筋肉グループを含む 15,000 を超えるビデオ クリップを備えた MuscleMap136 データセットを提供します。
このデータセットは、スポーツおよびリハビリテーション医療における複数のビデオベースのアプリケーションへの見通しを開きます。
特に運動を対象とするメインの MuscleMap136 データセットを、AMGE アノテーションで拡張されたよく知られたアクティビティ認識ベンチマークの新しいバリアントである Muscle-UCF90 と Muscle-HMDB41 でさらに補完します。
AMGE モデルを実際の状況に適用できるようにするには、トレーニング中に存在しない種類の身体活動や、活性化された筋肉の新しい組み合わせを含む身体活動にモデルをうまく一般化できるようにすることが重要です。
これを達成するために、私たちのベンチマークは、モデルがトレーニング セットから除外されたアクティビティ タイプにさらされる評価設定もカバーしています。
私たちの実験は、AMGE タスクに適応した既存のアーキテクチャの一般化可能性が依然として課題であることを明らかにしています。
したがって、クロスモーダルなマルチラベル知識蒸留を備えたトランスフォーマーベースのモデルを採用し、以前に見られたタイプと新しいタイプの身体活動の両方を扱う際に、すべての一般的なビデオ分類モデルを凌駕する新しいアプローチ、TransM3E も提案します。
データセットとコードは、https://github.com/KPeng9510/MuscleMap で公開されます。
要約(オリジナル)
In this paper, we tackle the new task of video-based Activated Muscle Group Estimation (AMGE) aiming at identifying active muscle regions during physical activity. To this intent, we provide the MuscleMap136 dataset featuring >15K video clips with 136 different activities and 20 labeled muscle groups. This dataset opens the vistas to multiple video-based applications in sports and rehabilitation medicine. We further complement the main MuscleMap136 dataset, which specifically targets physical exercise, with Muscle-UCF90 and Muscle-HMDB41, which are new variants of the well-known activity recognition benchmarks extended with AMGE annotations. To make the AMGE model applicable in real-life situations, it is crucial to ensure that the model can generalize well to types of physical activities not present during training and involving new combinations of activated muscles. To achieve this, our benchmark also covers an evaluation setting where the model is exposed to activity types excluded from the training set. Our experiments reveal that generalizability of existing architectures adapted for the AMGE task remains a challenge. Therefore, we also propose a new approach, TransM3E, which employs a transformer-based model with cross-modal multi-label knowledge distillation and surpasses all popular video classification models when dealing with both, previously seen and new types of physical activities. The datasets and code will be publicly available at https://github.com/KPeng9510/MuscleMap.
arxiv情報
著者 | Kunyu Peng,David Schneider,Alina Roitberg,Kailun Yang,Jiaming Zhang,M. Saquib Sarfraz,Rainer Stiefelhagen |
発行日 | 2023-03-17 05:55:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google