要約
イベントベースカメラは、フレームベースカメラに代わる低消費電力カメラとして、高速な動きやハイダイナミックレンジのシーンを撮影することができます。イベントベースカメラは、疎なイベントの非同期ストリームを提供します。このようなイベントストリームから時空間的な特徴を抽出するためには、非同期のイベント駆動型計算を行うスパイクニューラルネットワーク(SNN)が大きな可能性を秘めています。一方、標準的なアナログニューラルネットワーク(ANNs1)は、イベントデータを効果的に処理することができません。しかし、SNNの学習は、学習可能なパラメータ(閾値とリーク)の追加、深層でのスパイクの消失、微分不可能な2値活性化関数などのために困難である。さらに、SNNでは、時間情報を追跡するためのデータ構造「膜電位」が追加され、タイムステップごとに取得・更新される必要がある。これらを克服するために、我々は両者の長所を組み合わせた新しいSNN-ANNハイブリッドアーキテクチャを提案する。具体的には、SNN層の非同期計算機能を活用し、入力された時間情報を効果的に抽出する。一方、ANN層は、GPUなどの標準的な機械学習ハードウェアで問題なく学習・実装することができます。各層をスパイク型とアナログ型に分類し、パフォーマンスとトレーニングのしやすさを最適化したネットワーク構成を実現するための広範な実験解析を提供します。DSEC-flowとMVSEC(Mutli-Vehicle Stereo Event-Camera)データセットにおいて、イベントデータを用いたオプティカルフロー推定のためのハイブリッドアーキテクチャを評価した。その結果、我々の構成するハイブリッドアーキテクチャは、精度と効率の両面で、最先端のANNのみ、SNNのみ、過去のハイブリッドアーキテクチャを凌駕することが示された。具体的には、DSECとMVSECのデータセットにおいて、SNNのみのアーキテクチャと比較して、平均終点誤差(AEE)がそれぞれ31%と24.8%低く、エネルギーは2.1倍と3.1倍低くなることが示されました。
要約(オリジナル)
Event-based cameras offer a low-power alternative to frame-based cameras for capturing high-speed motion and high dynamic range scenes. They provide asynchronous streams of sparse events. Spiking Neural Networks (SNNs) with their asynchronous event-driven compute, show great potential for extracting the spatio-temporal features from these event streams. In contrast, the standard Analog Neural Networks (ANNs1) fail to process event data effectively. However, training SNNs is difficult due to additional trainable parameters (thresholds and leaks), vanishing spikes at deeper layers, non-differentiable binary activation function etc. Moreover, an additional data structure ‘membrane potential’ responsible for keeping track of temporal information, must be fetched and updated at every timestep in SNNs. To overcome these, we propose a novel SNN-ANN hybrid architecture that combines the strengths of both. Specifically, we leverage the asynchronous compute capabilities of SNN layers to effectively extract the input temporal information. While the ANN layers offer trouble-free training and implementation on standard machine learning hardware such as GPUs. We provide extensive experimental analysis for assigning each layer to be spiking or analog in nature, leading to a network configuration optimized for performance and ease of training. We evaluate our hybrid architectures for optical flow estimation using event-data on DSEC-flow and Mutli-Vehicle Stereo Event-Camera (MVSEC) datasets. The results indicate that our configured hybrid architectures outperform the state-of-the-art ANN-only, SNN-only and past hybrid architectures both in terms of accuracy and efficiency. Specifically, our hybrid architecture exhibit a 31% and 24.8% lower average endpoint error (AEE) at 2.1x and 3.1x lower energy, compared to an SNN-only architecture on DSEC and MVSEC datasets, respectively.
arxiv情報
| 著者 | Shubham Negi,Deepika Sharma,Adarsh Kumar Kosta,Kaushik Roy |
| 発行日 | 2023-06-05 15:26:02+00:00 |
| arxivサイト | arxiv_id(pdf) |