Optical flow estimation from event-based cameras and spiking neural networks

要約

イベントベースのカメラは、コンピューター ビジョン コミュニティ内での関心を高めています。
これらのセンサーは非同期ピクセルで動作し、最後のイベントが特定のしきい値を超えてから特定のピクセルで輝度が変化すると、イベントまたは「スパイク」を発生します。
低消費電力、低遅延、高ダイナミック レンジなどの固有の特性により、時間的制約や安全性要件が厳しいアプリケーションに特に適していると思われます。
イベントベースのセンサーは、非同期センサーとニューロモーフィック ハードウェアを組み合わせることで最小限の電力要件でリアルタイム システムを実現できるため、スパイキング ニューラル ネットワーク (SNN) に最適です。
この研究では、DSEC データセットからのイベント センサー データとスパイク ニューラル ネットワークの両方を使用して、運転シナリオのオプティカル フローを推定する、そのようなシステムの 1 つを開発しようとしています。
私たちは、教師ありトレーニング後に高密度のオプティカル フロー推定を行うことができる U-Net のような SNN を提案します。
そのために、誤差ベクトルの最小ノルムと、グラウンドトゥルースと予測されたフローの間の最小角度の両方を推奨し、サロゲート勾配を使用したバックプロパゲーションでモデルをトレーニングします。
さらに、3D コンボリューションを使用すると、時間的な受容野が増加するため、データの動的な性質を捉えることができます。
各デコード段階後のアップサンプリングにより、各デコーダの出力が最終推定に確実に寄与します。
分離可能な畳み込みのおかげで、(競合他社と比較した場合に)それでもかなり正確なオプティカル フロー推定値を生成できる軽量モデルを開発することができました。

要約(オリジナル)

Event-based cameras are raising interest within the computer vision community. These sensors operate with asynchronous pixels, emitting events, or ‘spikes’, when the luminance change at a given pixel since the last event surpasses a certain threshold. Thanks to their inherent qualities, such as their low power consumption, low latency and high dynamic range, they seem particularly tailored to applications with challenging temporal constraints and safety requirements. Event-based sensors are an excellent fit for Spiking Neural Networks (SNNs), since the coupling of an asynchronous sensor with neuromorphic hardware can yield real-time systems with minimal power requirements. In this work, we seek to develop one such system, using both event sensor data from the DSEC dataset and spiking neural networks to estimate optical flow for driving scenarios. We propose a U-Net-like SNN which, after supervised training, is able to make dense optical flow estimations. To do so, we encourage both minimal norm for the error vector and minimal angle between ground-truth and predicted flow, training our model with back-propagation using a surrogate gradient. In addition, the use of 3d convolutions allows us to capture the dynamic nature of the data by increasing the temporal receptive fields. Upsampling after each decoding stage ensures that each decoder’s output contributes to the final estimation. Thanks to separable convolutions, we have been able to develop a light model (when compared to competitors) that can nonetheless yield reasonably accurate optical flow estimates.

arxiv情報

著者 Javier Cuadrado,Ulysse Rançon,Benoît Cottereau,Francisco Barranco,Timothée Masquelier
発行日 2023-05-17 13:38:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク