How Real is CARLAs Dynamic Vision Sensor? A Study on the Sim-to-Real Gap in Traffic Object Detection

要約

イベントカメラは、潜時が低い、時間分解能が高く、エネルギー効率が低いため、トラフィック監視アプリケーションで牽引力を獲得しているため、トラフィックの交差点でのリアルタイムオブジェクト検出に適しています。
ただし、堅牢なイベントベースの検出モデルの開発は、注釈付きの実世界のデータセットの利用可能性が限られていることによって妨げられています。
これに対処するために、合成イベントデータを生成するためにいくつかのシミュレーションツールが開発されました。
これらの中には、Carla Driving Simulatorには、イベントカメラの出力をエミュレートする組み込みの動的ビジョンセンサー(DVS)モジュールが含まれています。
その可能性にもかかわらず、イベントベースのオブジェクト検出のSIMからリアルのギャップは不十分な研究を行っています。
この作業では、Carlas DVSを使用して生成された合成データのみで再発性ビジョントランスモデルをトレーニングし、合成および実世界のイベントストリームのさまざまな組み合わせでテストすることにより、このギャップの体系的な評価を提示します。
私たちの実験は、合成データのみで訓練されたモデルが合成が多いテストセットでうまく機能するが、実際のデータの割合が増加するにつれて大きなパフォーマンスの劣化に苦しむことを示しています。
対照的に、実際のデータでトレーニングされたモデルは、ドメイン全体でより強力な一般化を示しています。
この研究は、Carlas DVSを使用したイベントベースのオブジェクト検出におけるSIMからリアルのギャップの最初の定量化可能な分析を提供します。
私たちの調査結果は、現在のDVSシミュレーションの忠実度の制限を強調し、トラフィックモニタリングの神経形態の視力におけるドメイン適応技術の改善の必要性を強調しています。

要約(オリジナル)

Event cameras are gaining traction in traffic monitoring applications due to their low latency, high temporal resolution, and energy efficiency, which makes them well-suited for real-time object detection at traffic intersections. However, the development of robust event-based detection models is hindered by the limited availability of annotated real-world datasets. To address this, several simulation tools have been developed to generate synthetic event data. Among these, the CARLA driving simulator includes a built-in dynamic vision sensor (DVS) module that emulates event camera output. Despite its potential, the sim-to-real gap for event-based object detection remains insufficiently studied. In this work, we present a systematic evaluation of this gap by training a recurrent vision transformer model exclusively on synthetic data generated using CARLAs DVS and testing it on varying combinations of synthetic and real-world event streams. Our experiments show that models trained solely on synthetic data perform well on synthetic-heavy test sets but suffer significant performance degradation as the proportion of real-world data increases. In contrast, models trained on real-world data demonstrate stronger generalization across domains. This study offers the first quantifiable analysis of the sim-to-real gap in event-based object detection using CARLAs DVS. Our findings highlight limitations in current DVS simulation fidelity and underscore the need for improved domain adaptation techniques in neuromorphic vision for traffic monitoring.

arxiv情報

著者 Kaiyuan Tan,Pavan Kumar B N,Bharatesh Chakravarthi
発行日 2025-06-16 17:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク