要約
特に高齢者や介助が必要な人の自立した生活を支えるために、人の行動認識はますます不可欠になっている。モニタリング機能を備えた家庭用サービスロボットは、安全性を高め、必要不可欠なサポートを提供することができる。画像ベースの方法は過去10年でかなり進歩しましたが、プライバシーへの懸念や、低照度または暗い条件に対する感度の問題により、その採用は依然として制限されています。これに代わるものとして、ミリ波(mmWave)レーダーは、プライバシーを保護する点群データを生成することができる。しかし、疎でノイズの多い点群データを処理することは長年の課題である。グラフベースの手法やアテンションメカニズムは有望であるが、それらは主に「固定」カーネルに依存している。カーネルはすべての近傍領域にわたって一様に適用されるため、点群データの各局所近傍領域の特定の形状に合わせて動的にカーネルを調整できる適応的アプローチの必要性が強調される。この限界を克服するために、グラフ畳み込みフレームワークの中に適応的アプローチを導入する。単一の共有重み関数の代わりに、我々のマルチヘッド適応カーネル(MAK)モジュールは複数の動的カーネルを生成し、それぞれが局所特徴空間の異なる側面を捉える。大域的な空間コンテキストを維持しながら局所的な特徴を漸進的に洗練することで、我々の手法は、変化する局所的特徴に適応する畳み込みカーネルを可能にする。ベンチマークデータセットでの実験結果は、我々のアプローチの有効性を確認し、人間の活動認識において最先端の性能を達成した。我々のソースコードは https://github.com/Gbouna/MAK-GCN で公開されている。
要約(オリジナル)
Human activity recognition is increasingly vital for supporting independent living, particularly for the elderly and those in need of assistance. Domestic service robots with monitoring capabilities can enhance safety and provide essential support. Although image-based methods have advanced considerably in the past decade, their adoption remains limited by concerns over privacy and sensitivity to low-light or dark conditions. As an alternative, millimetre-wave (mmWave) radar can produce point cloud data which is privacy-preserving. However, processing the sparse and noisy point clouds remains a long-standing challenge. While graph-based methods and attention mechanisms show promise, they predominantly rely on ‘fixed’ kernels; kernels that are applied uniformly across all neighbourhoods, highlighting the need for adaptive approaches that can dynamically adjust their kernels to the specific geometry of each local neighbourhood in point cloud data. To overcome this limitation, we introduce an adaptive approach within the graph convolutional framework. Instead of a single shared weight function, our Multi-Head Adaptive Kernel (MAK) module generates multiple dynamic kernels, each capturing different aspects of the local feature space. By progressively refining local features while maintaining global spatial context, our method enables convolution kernels to adapt to varying local features. Experimental results on benchmark datasets confirm the effectiveness of our approach, achieving state-of-the-art performance in human activity recognition. Our source code is made publicly available at: https://github.com/Gbouna/MAK-GCN
arxiv情報
| 著者 | Vincent Gbouna Zakka,Luis J. Manso,Zhuangzhuang Dai |
| 発行日 | 2025-04-03 17:19:20+00:00 |
| arxivサイト | arxiv_id(pdf) |