WEAR: A Multimodal Dataset for Wearable and Egocentric Video Activity Recognition

要約

タイトル:WearableとEgocentricビデオ活動認識のためのマルチモーダルデータセット「WEAR」
要約:
– カメラと慣性データの相補性が示されているにもかかわらず、両方のモダリティを提供するデータセットはまだ少ないです。
– 本論文では、ビジョンとウェアラブルに基づく人間の活動認識(HAR)のためのマルチモーダルベンチマークデータセット「WEAR」を紹介します。
– このデータセットには、18人の参加者が10の異なる外部場所で実施した18の異なるワークアウト活動の非切り詰め慣性(加速度)およびカメラ(エゴセントリックビデオ)データが含まれます。
– WEARは、人間とオブジェクトの相互作用によって定義された過去のエゴセントリックデータセットとは異なり、本質的に異なる活動カテゴリーからは起源していない、類似性の低い多様な活動を備えています。
– 提供されたベンチマーク結果は、単一モダリティアーキテクチャが予測パフォーマンスに異なる強みと弱みを持っていることを示しています。
– さらに、最近のトランスフォーマーベースのビデオアクション検出モデルの成功を考慮して、ビジョン、慣性、および組み合わせ(ビジョン+慣性)機能を入力として、平易な方法でそれらの汎用性を示します。
– 結果は、ビジョントランスフォーマーが慣性データのみを使用して競合力のある結果を生成できるだけでなく、単純な連結を用いて両方のモダリティを融合するためのアーキテクチャとして機能することを示し、マルチモーダルアプローチが最高平均mAP、精度、および最も近づくF1スコアを生み出すことができることを示しています。
– これまで、ビジョンベースのトランスフォーマーは慣性およびマルチモーダル人間活動認識で探求されたことがなかったため、我々のアプローチは初めてです。
– データセットおよび実験の再現コードは、mariusbock.github.io/wearを通じて公開されています。

要約(オリジナル)

Though research has shown the complementarity of camera- and inertial-based data, datasets which offer both modalities remain scarce. In this paper we introduce WEAR, a multimodal benchmark dataset for both vision- and wearable-based Human Activity Recognition (HAR). The dataset comprises data from 18 participants performing a total of 18 different workout activities with untrimmed inertial (acceleration) and camera (egocentric video) data recorded at 10 different outside locations. WEAR features a diverse set of activities which are low in inter-class similarity and, unlike previous egocentric datasets, not defined by human-object-interactions nor originate from inherently distinct activity categories. Provided benchmark results reveal that single-modality architectures have different strengths and weaknesses in their prediction performance. Further, in light of the recent success of transformer-based video action detection models, we demonstrate their versatility by applying them in a plain fashion using vision, inertial and combined (vision + inertial) features as input. Results show that vision transformers are not only able to produce competitive results using only inertial data, but also can function as an architecture to fuse both modalities by means of simple concatenation, with the multimodal approach being able to produce the highest average mAP, precision and close-to-best F1-scores. Up until now, vision-based transformers have neither been explored in inertial nor in multimodal human activity recognition, making our approach the first to do so. The dataset and code to reproduce experiments is publicly available via: mariusbock.github.io/wear

arxiv情報

著者 Marius Bock,Michael Moeller,Kristof Van Laerhoven,Hilde Kuehne
発行日 2023-04-11 09:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.HC パーマリンク