要約
慣性測定ユニット (IMU) などのウェアラブル センサーは、人間の運動パフォーマンスを評価するためによく使用されます。
一般的なアプローチでは、ドメインの専門知識に基づいて手作りされた特徴、または時系列分析を使用して自動的に抽出された特徴が使用されます。
高い分類精度を達成するには複数のセンサーが必要ですが、これはあまり現実的ではありません。
これらのセンサーには校正と同期が必要であり、長期間にわたって不快感を引き起こす可能性があります。
コンピューター ビジョン技術を利用した最近の研究では、手動の特徴エンジニアリングを必要とせず、センサーのキャリブレーションや身体への配置などのいくつかの落とし穴を回避して、ビデオを使用しても同様のパフォーマンスを示しています。
この論文では、ミリタリー プレスとローイング演習からなる 2 つの現実世界のデータセットで人間の演習を分類するためのビデオベースのアプローチと IMU のパフォーマンスを比較します。
正面図でビデオをキャプチャする 1 台のカメラを使用した場合と、体の異なる部分に配置された 5 つの IMU を使用した場合のパフォーマンスを比較します。
単一のカメラに基づくアプローチは、単一の IMU よりも平均で 10 パーセントポイント優れたパフォーマンスを発揮できることがわかりました。
さらに、1 台のカメラよりも優れたパフォーマンスを発揮するには、少なくとも 3 つの IMU が必要です。
多変量時系列分類子を使用して生データを操作することは、手作りまたは自動的に抽出された特徴に基づく従来のアプローチよりも優れていることがわかります。
最後に、単一のカメラと単一の IMU からのデータを組み合わせたアンサンブル モデルが、どちらのデータ モダリティよりも優れたパフォーマンスを発揮することを示します。
私たちの研究は、このアプリケーションに新しく、より現実的な道を切り開きます。そこでは、すぐに入手できるスマートフォンのカメラを使用して撮影したビデオを単一のセンサーと組み合わせて、人間の運動を効果的に分類するために使用できます。
要約(オリジナル)
Wearable sensors such as Inertial Measurement Units (IMUs) are often used to assess the performance of human exercise. Common approaches use handcrafted features based on domain expertise or automatically extracted features using time series analysis. Multiple sensors are required to achieve high classification accuracy, which is not very practical. These sensors require calibration and synchronization and may lead to discomfort over longer time periods. Recent work utilizing computer vision techniques has shown similar performance using video, without the need for manual feature engineering, and avoiding some pitfalls such as sensor calibration and placement on the body. In this paper, we compare the performance of IMUs to a video-based approach for human exercise classification on two real-world datasets consisting of Military Press and Rowing exercises. We compare the performance using a single camera that captures video in the frontal view versus using 5 IMUs placed on different parts of the body. We observe that an approach based on a single camera can outperform a single IMU by 10 percentage points on average. Additionally, a minimum of 3 IMUs are required to outperform a single camera. We observe that working with the raw data using multivariate time series classifiers outperforms traditional approaches based on handcrafted or automatically extracted features. Finally, we show that an ensemble model combining the data from a single camera with a single IMU outperforms either data modality. Our work opens up new and more realistic avenues for this application, where a video captured using a readily available smartphone camera, combined with a single sensor, can be used for effective human exercise classification.
arxiv情報
著者 | Ashish Singh,Antonio Bevilacqua,Timilehin B. Aderinola,Thach Le Nguyen,Darragh Whelan,Martin O’Reilly,Brian Caulfield,Georgiana Ifrim |
発行日 | 2023-07-10 12:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google