WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity Recognition

要約

研究により、カメラベースのデータと慣性ベースのデータの相補性が示されていますが、自己中心的なビデオと慣性ベースのセンサー データの両方を提供するデータセットは依然として希少です。
この論文では、視覚ベースと慣性ベースの両方の人間活動認識 (HAR) のためのアウトドア スポーツ データセットである WEAR を紹介します。
データセットは、合計 18 の異なるトレーニング アクティビティを実行する 18 人の参加者からのデータで構成されており、トリミングされていない慣性 (加速度) とカメラ (自己中心的なビデオ) データが 10 の異なる屋外の場所で記録されています。
以前の自己中心的なデータセットとは異なり、WEAR は、意図的に導入されたアクティビティの変動と、モダリティ間の全体的な小さな情報の重複によって特徴付けられる、挑戦的な予測シナリオを提供します。
各モダリティを個別に使用して得られたベンチマーク結果は、興味深いことに、各モダリティが予測パフォーマンスにおいて補完的な長所と短所を提供していることを示しています。
さらに、ActionFormer のアーキテクチャ設計に続く時間的アクション位置特定モデルの最近の成功を考慮して、視覚、慣性、および組み合わせ (視覚 + 慣性) の特徴を入力として使用して、それらを単純な方法で適用することにより、その多用途性を実証します。
結果は、慣性データに対する視覚ベースの時間的動作位置特定モデルの適用可能性と、単純な連結による両方のモダリティの融合の両方を実証し、組み合わせたアプローチ (視覚 + 慣性特徴) により、最高の平均精度とそれに近い精度を生み出すことができます。
最高のF1スコア。
実験を再現するためのデータセットとコードは、https://mariusbock.github.io/wear/ から公開されています。

要約(オリジナル)

Though research has shown the complementarity of camera- and inertial-based data, datasets which offer both egocentric video and inertial-based sensor data remain scarce. In this paper, we introduce WEAR, an outdoor sports dataset for both vision- and inertial-based human activity recognition (HAR). The dataset comprises data from 18 participants performing a total of 18 different workout activities with untrimmed inertial (acceleration) and camera (egocentric video) data recorded at 10 different outside locations. Unlike previous egocentric datasets, WEAR provides a challenging prediction scenario marked by purposely introduced activity variations as well as an overall small information overlap across modalities. Benchmark results obtained using each modality separately show that each modality interestingly offers complementary strengths and weaknesses in their prediction performance. Further, in light of the recent success of temporal action localization models following the architecture design of the ActionFormer, we demonstrate their versatility by applying them in a plain fashion using vision, inertial and combined (vision + inertial) features as input. Results demonstrate both the applicability of vision-based temporal action localization models for inertial data and fusing both modalities by means of simple concatenation, with the combined approach (vision + inertial features) being able to produce the highest mean average precision and close-to-best F1-score. The dataset and code to reproduce experiments is publicly available via: https://mariusbock.github.io/wear/

arxiv情報

著者 Marius Bock,Hilde Kuehne,Kristof Van Laerhoven,Michael Moeller
発行日 2023-11-21 16:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク