EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera

要約

エゴセントリックジェスチャー認識は、自然なヒューマンコンピューターの相互作用を強化するための極めて重要なテクノロジーですが、従来のRGBベースのソリューションは、動的なシナリオのモーションブラーと照明の変動に悩まされています。
イベントカメラは、超低消費電力で高いダイナミックレンジを処理する上で明確な利点を示していますが、既存のRGBベースのアーキテクチャは、同期フレームベースの性質のために非同期イベントストリームの処理に固有の制限に直面しています。
さらに、エゴセントリックな観点から、イベントカメラは、頭の動きと手のジェスチャーの両方によって生成されたイベントを含むデータを記録し、それによってジェスチャー認識の複雑さを高めます。
これに対処するために、イベントデータ処理用に特別に設計された新しいネットワークアーキテクチャを提案します。(1)空間的特徴を維持しながらパラメーターを削減しながらパラメーターを削減しながら、パラメーターを維持するための非対称の深部ワイズ畳み込みを備えた軽量CNNを提案します。
シフトビンと時間的寸法に沿って機能をシフトして、まばらなイベントを効率的に融合させます。
さらに、イベントカメラを使用したエゴセントリックジェスチャー認識のための最初の大規模なデータセットであるEgoevgestureデータセットを確立します。
実験結果は、私たちの方法が、わずか7mのパラメーターを持つ目に見えない被験者でテストされた62.7%の精度を達成し、最先端のアプローチよりも3.1%高いことを示しています。
フリースタイルの動きにおける顕著な誤分類は、人間間の高い変動性と、トレーニングデータとは異なる目に見えないテストパターンに起因しています。
さらに、私たちのアプローチは、DVS128ジェスチャーで97.0%の顕著な精度を達成し、パブリックデータセットでのメソッドの有効性と一般化能力を実証しました。
データセットとモデルは、https://github.com/3190105222/egoev_gestureで利用可能になります。

要約(オリジナル)

Egocentric gesture recognition is a pivotal technology for enhancing natural human-computer interaction, yet traditional RGB-based solutions suffer from motion blur and illumination variations in dynamic scenarios. While event cameras show distinct advantages in handling high dynamic range with ultra-low power consumption, existing RGB-based architectures face inherent limitations in processing asynchronous event streams due to their synchronous frame-based nature. Moreover, from an egocentric perspective, event cameras record data that includes events generated by both head movements and hand gestures, thereby increasing the complexity of gesture recognition. To address this, we propose a novel network architecture specifically designed for event data processing, incorporating (1) a lightweight CNN with asymmetric depthwise convolutions to reduce parameters while preserving spatiotemporal features, (2) a plug-and-play state-space model as context block that decouples head movement noise from gesture dynamics, and (3) a parameter-free Bins-Temporal Shift Module (BSTM) that shifts features along bins and temporal dimensions to fuse sparse events efficiently. We further establish the EgoEvGesture dataset, the first large-scale dataset for egocentric gesture recognition using event cameras. Experimental results demonstrate that our method achieves 62.7% accuracy tested on unseen subjects with only 7M parameters, 3.1% higher than state-of-the-art approaches. Notable misclassifications in freestyle motions stem from high inter-personal variability and unseen test patterns differing from training data. Moreover, our approach achieved a remarkable accuracy of 97.0% on the DVS128 Gesture, demonstrating the effectiveness and generalization capability of our method on public datasets. The dataset and models are made available at https://github.com/3190105222/EgoEv_Gesture.

arxiv情報

著者 Luming Wang,Hao Shi,Xiaoting Yin,Kailun Yang,Kaiwei Wang,Jian Bai
発行日 2025-04-14 02:44:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV, physics.optics パーマリンク