Efficient Gesture Recognition on Spiking Convolutional Networks Through Sensor Fusion of Event-Based and Depth Data

要約

私たちの日常生活においてインテリジェント システムの重要性が高まるにつれ、新しい対話方法が必要とされています。
従来のユーザー インターフェイスは身体障害者にとって問題があり、部分的に実用的または便利ではありません。
ジェスチャ認識は代替手段ですが、従来のカメラが使用される場合には十分に反応しないことがよくあります。
この研究では、ジェスチャ認識のためにイベントと深度データを処理するスパイキング畳み込みニューラル ネットワークを提案しています。
ネットワークは、組み込みシステムでのオフライン トレーニングと評価のために、オープンソースのニューロモーフィック コンピューティング フレームワーク LAVA を使用してシミュレートされます。
評価には 3 つのオープンソース データ セットが使用されます。
これらは適用されたバイモダリティを表していないため、同期されたイベントデータと深度データを含む新しいデータセットが記録されました。
この結果は、異なるエンコードされたデータであっても、深度情報とモダリティ融合の時間エンコードが実行可能であり、ネットワークのパフォーマンスと汎化機能に有益であることを示しています。

要約(オリジナル)

As intelligent systems become increasingly important in our daily lives, new ways of interaction are needed. Classical user interfaces pose issues for the physically impaired and are partially not practical or convenient. Gesture recognition is an alternative, but often not reactive enough when conventional cameras are used. This work proposes a Spiking Convolutional Neural Network, processing event- and depth data for gesture recognition. The network is simulated using the open-source neuromorphic computing framework LAVA for offline training and evaluation on an embedded system. For the evaluation three open source data sets are used. Since these do not represent the applied bi-modality, a new data set with synchronized event- and depth data was recorded. The results show the viability of temporal encoding on depth information and modality fusion, even on differently encoded data, to be beneficial to network performance and generalization capabilities.

arxiv情報

著者 Lea Steffen,Thomas Trapp,Arne Roennau,Rüdiger Dillmann
発行日 2024-01-30 14:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE, cs.RO パーマリンク