HARMamba: Efficient Wearable Sensor Human Activity Recognition Based on Bidirectional Selective SSM

要約

ウェアラブル センサーの人間活動認識 (HAR) は、活動センシングにおける重要な研究分野です。
トランスフォーマーベースの時間深層学習モデルは広範囲に研究され、実装されてきましたが、パラメーターが多数あるため、システムのコンピューティング負荷とメモリ使用量の点で大きな課題が生じ、リアルタイムのモバイル アクティビティ認識アプリケーションには適していません。
最近、Mamba と呼ばれる効率的なハードウェア認識状態空間モデル (SSM) が、有望な代替手段として浮上しました。
Mamba は、長いシーケンスのモデリングで強力な可能性を示し、よりシンプルなネットワーク アーキテクチャを誇り、効率的なハードウェアを意識した設計を提供します。
アクティビティ認識に SSM を活用することは、探索のための魅力的な手段となります。
この研究では、アクティビティ認識の基礎モデル アーキテクチャとしてより軽量の選択的 SSM を採用する HARMamba を紹介します。
目標は、リアルタイム アクティビティ認識シナリオで遭遇する計算リソースの制約に対処することです。
私たちのアプローチには、各チャネルを個別に学習し、データを「パッチ」に分割することによってセンサー データ フローを処理することが含まれます。
マークされたセンサー シーケンスの位置埋め込みは、双方向状態空間モデルの入力トークンとして機能し、最終的には分類ヘッドによるアクティビティの分類につながります。
Transformer ベースのモデルなどの確立されたアクティビティ認識フレームワークと比較して、HARMamba は優れたパフォーマンスを実現しながら、計算とメモリのオーバーヘッドも削減します。
さらに、私たちが提案した方法は、PAMAP2、WISDM、UNIMIB、UCI の 4 つの公開アクティビティ データセットで広範囲にテストされており、アクティビティ認識タスクで優れたパフォーマンスを示しています。

要約(オリジナル)

Wearable sensor human activity recognition (HAR) is a crucial area of research in activity sensing. While transformer-based temporal deep learning models have been extensively studied and implemented, their large number of parameters present significant challenges in terms of system computing load and memory usage, rendering them unsuitable for real-time mobile activity recognition applications. Recently, an efficient hardware-aware state space model (SSM) called Mamba has emerged as a promising alternative. Mamba demonstrates strong potential in long sequence modeling, boasts a simpler network architecture, and offers an efficient hardware-aware design. Leveraging SSM for activity recognition represents an appealing avenue for exploration. In this study, we introduce HARMamba, which employs a more lightweight selective SSM as the foundational model architecture for activity recognition. The goal is to address the computational resource constraints encountered in real-time activity recognition scenarios. Our approach involves processing sensor data flow by independently learning each channel and segmenting the data into ‘patches’. The marked sensor sequence’s position embedding serves as the input token for the bidirectional state space model, ultimately leading to activity categorization through the classification head. Compared to established activity recognition frameworks like Transformer-based models, HARMamba achieves superior performance while also reducing computational and memory overhead. Furthermore, our proposed method has been extensively tested on four public activity datasets: PAMAP2, WISDM, UNIMIB, and UCI, demonstrating impressive performance in activity recognition tasks.

arxiv情報

著者 Shuangjian Li,Tao Zhu,Furong Duan,Liming Chen,Huansheng Ning,Yaping Wan
発行日 2024-03-29 13:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク