要約
人間の活動認識(HAR)は、実際のデータ収集のコストと複雑さが高いため、ラベル付きのデータセットの希少性によって制限されることがよくあります。
これを緩和するために、最近の研究では、クロスモダリティ転送を介して仮想慣性測定ユニット(IMU)データの生成が調査されています。
ビデオベースと言語ベースのパイプラインはそれぞれ約束を示していますが、仮定と計算コストが異なります。
さらに、従来のセンサーレベルのデータ増強に関連する有効性は不明のままです。
この論文では、古典的なデータ増強技術に対するこれら2つの仮想IMU生成アプローチの直接的な比較を示します。
Kinetics-400から100の多様なアクティビティにまたがる大規模な仮想IMUデータセットを構築し、22のボディロケーションでセンサー信号をシミュレートします。
3つのデータ生成戦略は、4つの一般的なモデルを使用して、ベンチマークHARデータセット(UTD-MHAD、PAMAP2、HAD-AW)で評価されます。
結果は、仮想IMUデータが、特に限られたデータ条件下で、実際のデータまたは拡張データのみでパフォーマンスを大幅に改善することを示しています。
データ生成戦略の選択に関する実用的なガイダンスを提供し、各アプローチの明確な利点と短所を強調します。
要約(オリジナル)
Human activity recognition (HAR) is often limited by the scarcity of labeled datasets due to the high cost and complexity of real-world data collection. To mitigate this, recent work has explored generating virtual inertial measurement unit (IMU) data via cross-modality transfer. While video-based and language-based pipelines have each shown promise, they differ in assumptions and computational cost. Moreover, their effectiveness relative to traditional sensor-level data augmentation remains unclear. In this paper, we present a direct comparison between these two virtual IMU generation approaches against classical data augmentation techniques. We construct a large-scale virtual IMU dataset spanning 100 diverse activities from Kinetics-400 and simulate sensor signals at 22 body locations. The three data generation strategies are evaluated on benchmark HAR datasets (UTD-MHAD, PAMAP2, HAD-AW) using four popular models. Results show that virtual IMU data significantly improves performance over real or augmented data alone, particularly under limited-data conditions. We offer practical guidance on choosing data generation strategies and highlight the distinct advantages and disadvantages of each approach.
arxiv情報
著者 | Zikang Leng,Archith Iyer,Thomas Plötz |
発行日 | 2025-06-13 13:43:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google