Object Detection using Event Camera: A MoE Heat Conduction based Detector and A New Benchmark Dataset

要約

イベント ストリームでの物体検出は最先端の研究分野として浮上しており、低照度条件、モーション ブラーのあるシナリオ、および素早い動きで優れたパフォーマンスを実証しています。
現在の検出器は、コア アーキテクチャとしてスパイク ニューラル ネットワーク、トランスフォーマー、または畳み込みニューラル ネットワークを活用していますが、それぞれに制限されたパフォーマンス、高い計算オーバーヘッド、または限られた局所受容野などの独自の制限があります。
この論文では、精度と計算効率のバランスを見事にとった、新しい MoE (Mixture of Experts) 熱伝導ベースの物体検出アルゴリズムを紹介します。
最初に、イベント データの埋め込みにステム ネットワークを採用し、その後、革新的な MoE-HCO ブロックを通じて処理します。
各ブロックには、イベント ストリーム内の熱伝導を模倣するためのさまざまなエキスパート モジュールが統合されています。
その後、IoU ベースのクエリ選択モジュールを利用して効率的なトークン抽出が行われ、トークン抽出は最終的なオブジェクト検出プロセスの検出ヘッドに送られます。
さらに、イベントベースの物体検出のための新しいベンチマーク データセットである EvDET200K を紹介できることを嬉しく思います。
高解像度の Prophesee EVK4-HD イベント カメラでキャプチャされたこのデータセットには、10 の異なるカテゴリ、200,000 の境界ボックス、および 10,054 のサンプルが含まれており、それぞれの範囲は 2 ~ 5 秒です。
また、15 を超える最先端の検出器からの包括的な結果も提供し、将来の研究と比較のための強固な基盤を提供します。
この論文のソースコードは https://github.com/Event-AHU/OpenEvDET で公開されます。

要約(オリジナル)

Object detection in event streams has emerged as a cutting-edge research area, demonstrating superior performance in low-light conditions, scenarios with motion blur, and rapid movements. Current detectors leverage spiking neural networks, Transformers, or convolutional neural networks as their core architectures, each with its own set of limitations including restricted performance, high computational overhead, or limited local receptive fields. This paper introduces a novel MoE (Mixture of Experts) heat conduction-based object detection algorithm that strikingly balances accuracy and computational efficiency. Initially, we employ a stem network for event data embedding, followed by processing through our innovative MoE-HCO blocks. Each block integrates various expert modules to mimic heat conduction within event streams. Subsequently, an IoU-based query selection module is utilized for efficient token extraction, which is then channeled into a detection head for the final object detection process. Furthermore, we are pleased to introduce EvDET200K, a novel benchmark dataset for event-based object detection. Captured with a high-definition Prophesee EVK4-HD event camera, this dataset encompasses 10 distinct categories, 200,000 bounding boxes, and 10,054 samples, each spanning 2 to 5 seconds. We also provide comprehensive results from over 15 state-of-the-art detectors, offering a solid foundation for future research and comparison. The source code of this paper will be released on: https://github.com/Event-AHU/OpenEvDET

arxiv情報

著者 Xiao Wang,Yu Jin,Wentao Wu,Wei Zhang,Lin Zhu,Bo Jiang,Yonghong Tian
発行日 2024-12-09 16:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE パーマリンク