要約
バイオインスパイアされたビジュアルセンシングとニューロモーフィックコンピューティングにおける最近の進歩により、実世界に応用可能な様々な高効率のバイオインスパイアされたソリューションが開発されている。注目すべきアプリケーションの1つは、イベントベースのカメラとスパイキングニューラルネットワーク(SNN)を統合し、非同期でスパースであるため取り扱いが困難なイベントベースのシーケンスを処理するものである。このプロジェクトでは、ASL-DVSジェスチャーデータセットの空間的・時間的関係を学習するために、畳み込み演算とスパイクニューロンのリカレント特性を活用する畳み込みスパイクニューラルネットワーク(CSNN)アーキテクチャを開発する。ASL-DVSジェスチャーデータセットは、アメリカ手話(ASL)の24文字(記号の性質上、JとZを除くAからY)を表示する際の手のジェスチャーを含むニューロモーフィックデータセットである。我々は、ASL-DVSデータセットの前処理を施したサブセットに対して分類を行い、文字符号を識別し、100%の訓練精度を達成した。具体的には、学習率0.0005、バッチサイズ25(合計20バッチ)、反復回数200回、エポック10回を使用し、Google Cloudコンピュートプラットフォームで学習することで達成した。
要約(オリジナル)
Recent advancements in bio-inspired visual sensing and neuromorphic computing have led to the development of various highly efficient bio-inspired solutions with real-world applications. One notable application integrates event-based cameras with spiking neural networks (SNNs) to process event-based sequences that are asynchronous and sparse, making them difficult to handle. In this project, we develop a convolutional spiking neural network (CSNN) architecture that leverages convolutional operations and recurrent properties of a spiking neuron to learn the spatial and temporal relations in the ASL-DVS gesture dataset. The ASL-DVS gesture dataset is a neuromorphic dataset containing hand gestures when displaying 24 letters (A to Y, excluding J and Z due to the nature of their symbols) from the American Sign Language (ASL). We performed classification on a pre-processed subset of the full ASL-DVS dataset to identify letter signs and achieved 100\% training accuracy. Specifically, this was achieved by training in the Google Cloud compute platform while using a learning rate of 0.0005, batch size of 25 (total of 20 batches), 200 iterations, and 10 epochs.
arxiv情報
著者 | Ria Patel,Sujit Tripathy,Zachary Sublett,Seoyoung An,Riya Patel |
発行日 | 2024-08-01 14:49:43+00:00 |
arxivサイト | arxiv_id(pdf) |