要約
高時間解像度、高ダイナミック レンジ、低消費電力、高ピクセル帯域幅を特徴とするイベント カメラは、特殊なコンテキストでの物体検出のための独自の機能を提供します。
これらの利点にもかかわらず、イベント データの固有の希薄性と非同期性により、既存の物体検出アルゴリズムに課題が生じています。
人間の脳が情報をコード化し処理する方法にヒントを得たスパイキング ニューラル ネットワーク (SNN) は、これらの問題に対する潜在的な解決策を提供します。
ただし、イベント カメラを使用したオブジェクト検出のパフォーマンスは、現在の実装では制限されています。
この論文では、SNN ベースの物体検出へのシンプルかつ効率的なアプローチである Spiking Fusion Object Detector (SFOD) を提案します。
具体的には、Spiking Fusion Module を設計し、イベント カメラに適用される SNN のさまざまなスケールの特徴マップの初めての融合を実現します。
さらに、NCAR データセット上のバックボーン ネットワークの事前トレーニング中に実行された分析と実験を統合することで、スパイク デコード戦略と損失関数がモデルのパフォーマンスに及ぼす影響を深く掘り下げています。
これにより、SNN に基づいた最先端の分類結果が確立され、NCAR データセットで 93.7% の精度を達成しました。
GEN1 検出データセットの実験結果は、SFOD が 32.1\% という最先端の mAP を達成し、既存の SNN ベースのアプローチを上回るパフォーマンスを示していることを示しています。
私たちの研究は、イベント カメラによる物体検出における SNN の可能性を強調するだけでなく、SNN の進歩を推進するものでもあります。
コードは https://github.com/yimeng-fan/SFOD で入手できます。
要約(オリジナル)
Event cameras, characterized by high temporal resolution, high dynamic range, low power consumption, and high pixel bandwidth, offer unique capabilities for object detection in specialized contexts. Despite these advantages, the inherent sparsity and asynchrony of event data pose challenges to existing object detection algorithms. Spiking Neural Networks (SNNs), inspired by the way the human brain codes and processes information, offer a potential solution to these difficulties. However, their performance in object detection using event cameras is limited in current implementations. In this paper, we propose the Spiking Fusion Object Detector (SFOD), a simple and efficient approach to SNN-based object detection. Specifically, we design a Spiking Fusion Module, achieving the first-time fusion of feature maps from different scales in SNNs applied to event cameras. Additionally, through integrating our analysis and experiments conducted during the pretraining of the backbone network on the NCAR dataset, we delve deeply into the impact of spiking decoding strategies and loss functions on model performance. Thereby, we establish state-of-the-art classification results based on SNNs, achieving 93.7\% accuracy on the NCAR dataset. Experimental results on the GEN1 detection dataset demonstrate that the SFOD achieves a state-of-the-art mAP of 32.1\%, outperforming existing SNN-based approaches. Our research not only underscores the potential of SNNs in object detection with event cameras but also propels the advancement of SNNs. Code is available at https://github.com/yimeng-fan/SFOD.
arxiv情報
著者 | Yimeng Fan,Wei Zhang,Changsong Liu,Mingyang Li,Wenrui Lu |
発行日 | 2024-03-22 13:24:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google