Self-Supervised Event Representations: Towards Accurate, Real-Time Perception on SoC FPGAs

要約

イベントカメラは、従来のフレームベースのセンサーよりも大きな利点を提供します。
これらには、マイクロ秒の時間分解能、さまざまな照明条件下での堅牢性、低消費電力が含まれます。
それにもかかわらず、それらのまばらで非同期イベントストリームの効果的な処理は依然として困難です。
この問題に対する既存のアプローチは、2つの異なるグループに分類できます。
最初のグループには、スパイクニューラルネットワークやグラフの畳み込みニューラルネットワークなど、ニューラルモデルを使用したイベントデータの直接処理が含まれます。
ただし、このアプローチには、定性的パフォーマンスの観点からの妥協が伴うことがよくあります。
2番目のグループでは、手作りの集合機能を使用してイベントを密な表現に変換することが含まれます。
このペーパーでは、ゲートリカレントユニット(GRU)ネットワークを活用して、一時的な離散化なしにイベントタイムスタンプと極性の正確なピクセルエンコードを実現するために、新しい自己監視イベント表現(SSER)メソッドを紹介します。
再発層は、イベント時間エンコーディングの忠実度を最大化するために、自己監視の方法で訓練されています。
推論は、非同期に生成されたイベント表現で実行されるため、ハイスループットセンサーとの互換性を確保します。
実験的検証は、SSERが集約ベースのベースラインよりも優れており、Gen1および1 MPXオブジェクト検出データセットで2.4%のMAPと0.6%の改善を達成することを示しています。
さらに、このペーパーでは、システムオンチップFPGA上のイベントデータの再発表現の最初のハードウェア実装を提示し、1〜2 Wのサブマイクロンドレイテンシと消費電力を達成し、リアルタイムの電力効率の高いアプリケーションに適しています。
コードはhttps://github.com/vision-agh/recrepeventで入手できます。

要約(オリジナル)

Event cameras offer significant advantages over traditional frame-based sensors. These include microsecond temporal resolution, robustness under varying lighting conditions and low power consumption. Nevertheless, the effective processing of their sparse, asynchronous event streams remains challenging. Existing approaches to this problem can be categorised into two distinct groups. The first group involves the direct processing of event data with neural models, such as Spiking Neural Networks or Graph Convolutional Neural Networks. However, this approach is often accompanied by a compromise in terms of qualitative performance. The second group involves the conversion of events into dense representations with handcrafted aggregation functions, which can boost accuracy at the cost of temporal fidelity. This paper introduces a novel Self-Supervised Event Representation (SSER) method leveraging Gated Recurrent Unit (GRU) networks to achieve precise per-pixel encoding of event timestamps and polarities without temporal discretisation. The recurrent layers are trained in a self-supervised manner to maximise the fidelity of event-time encoding. The inference is performed with event representations generated asynchronously, thus ensuring compatibility with high-throughput sensors. The experimental validation demonstrates that SSER outperforms aggregation-based baselines, achieving improvements of 2.4% mAP and 0.6% on the Gen1 and 1 Mpx object detection datasets. Furthermore, the paper presents the first hardware implementation of recurrent representation for event data on a System-on-Chip FPGA, achieving sub-microsecond latency and power consumption between 1-2 W, suitable for real-time, power-efficient applications. Code is available at https://github.com/vision-agh/RecRepEvent.

arxiv情報

著者 Kamil Jeziorek,Tomasz Kryjak
発行日 2025-05-12 13:32:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク