Optical Flow estimation with Event-based Cameras and Spiking Neural Networks

要約

イベントベースのカメラは、コンピューター ビジョン コミュニティ内で関心を集めています。
これらのセンサーは、最後のイベント以降の特定のピクセルでの輝度変化が特定のしきい値を超えると、非同期ピクセル、放出イベント、または「スパイク」で動作します。
低消費電力、低遅延、高ダイナミック レンジなどの固有の品質のおかげで、それらは、困難な時間的制約と安全要件を持つアプリケーションに特に合わせて調整されているようです。
イベントベースのセンサーは、スパイキング ニューラル ネットワーク (SNN) に最適です。これは、非同期センサーをニューロモルフィック ハードウェアと結合することで、最小限の電力要件でリアルタイム システムを実現できるためです。
この作業では、DSEC データセットからのイベント センサー データとスパイキング ニューラル ネットワークの両方を使用して、シナリオを運転するためのオプティカル フローを推定する、そのようなシステムの 1 つを開発しようとしています。
教師ありトレーニングの後、密なオプティカル フロー推定を行うことができる U-Net のような SNN を提案します。
そのために、誤差ベクトルの最小ノルムと、グラウンド トゥルースと予測フローの間の最小角度の両方を推奨し、代理勾配を使用した逆伝播でモデルをトレーニングします。
さらに、3D 畳み込みを使用すると、一時的な受容野を増やすことで、データの動的な性質を捉えることができます。
各デコード段階の後のアップサンプリングにより、各デコーダーの出力が最終的な推定に寄与することが保証されます。
分離可能な畳み込みのおかげで、かなり正確なオプティカル フロー推定値を生成できるライト モデルを開発することができました (競合他社と比較した場合)。

要約(オリジナル)

Event-based cameras are raising interest within the computer vision community. These sensors operate with asynchronous pixels, emitting events, or ‘spikes’, when the luminance change at a given pixel since the last event surpasses a certain threshold. Thanks to their inherent qualities, such as their low power consumption, low latency and high dynamic range, they seem particularly tailored to applications with challenging temporal constraints and safety requirements. Event-based sensors are an excellent fit for Spiking Neural Networks (SNNs), since the coupling of an asynchronous sensor with neuromorphic hardware can yield real-time systems with minimal power requirements. In this work, we seek to develop one such system, using both event sensor data from the DSEC dataset and spiking neural networks to estimate optical flow for driving scenarios. We propose a U-Net-like SNN which, after supervised training, is able to make dense optical flow estimations. To do so, we encourage both minimal norm for the error vector and minimal angle between ground-truth and predicted flow, training our model with back-propagation using a surrogate gradient. In addition, the use of 3d convolutions allows us to capture the dynamic nature of the data by increasing the temporal receptive fields. Upsampling after each decoding stage ensures that each decoder’s output contributes to the final estimation. Thanks to separable convolutions, we have been able to develop a light model (when compared to competitors) that can nonetheless yield reasonably accurate optical flow estimates.

arxiv情報

著者 Javier Cuadrado,Ulysse Rançon,Benoît Cottereau,Francisco Barranco,Timothée Masquelier
発行日 2023-02-13 16:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク