RGB-Event Fusion for Moving Object Detection in Autonomous Driving

要約

移動物体検出 (MOD) は、安全な自動運転を成功させるための重要な視覚タスクです。
ディープ ラーニング手法の妥当な結果にもかかわらず、ほとんどの既存のアプローチはフレームベースのみであり、動的なトラフィック参加者を処理する場合、妥当なパフォーマンスに達しない可能性があります。
センサー技術の最近の進歩、特にイベント カメラは、従来のカメラ アプローチを自然に補完して、動くオブジェクトをより適切にモデル化できます。
ただし、イベントベースの作業は、多くの場合、イベント表現に事前定義された時間枠を採用し、それを単純に統合してイベントから画像強度を推定し、利用可能な非同期イベントからの豊富な時間情報の多くを無視します。
したがって、新しい観点から、自動運転の困難なシナリオの下でより堅牢な MOD を実現するために、2 つの補完的なモダリティを共同で利用する、新しい RGB イベント融合ネットワークである RENet を提案します。
具体的には、最初に一時的なマルチスケール集約モジュールを設計して、RGB 露出時間とより大きな間隔の両方からイベント フレームを完全に活用します。
次に、双方向の融合モジュールを導入して、マルチモーダル機能を注意深く調整および融合します。
ネットワークのパフォーマンスを評価するために、一般的に使用される DSEC データセットからサブ MOD データセットを慎重に選択して注釈を付けます。
広範な実験により、提案された方法が最先端のRGBイベント融合の代替手段よりも大幅に優れていることが実証されています。
ソース コードとデータセットは、https://github.com/ZYY-Zhou/RENet で公開されています。

要約(オリジナル)

Moving Object Detection (MOD) is a critical vision task for successfully achieving safe autonomous driving. Despite plausible results of deep learning methods, most existing approaches are only frame-based and may fail to reach reasonable performance when dealing with dynamic traffic participants. Recent advances in sensor technologies, especially the Event camera, can naturally complement the conventional camera approach to better model moving objects. However, event-based works often adopt a pre-defined time window for event representation, and simply integrate it to estimate image intensities from events, neglecting much of the rich temporal information from the available asynchronous events. Therefore, from a new perspective, we propose RENet, a novel RGB-Event fusion Network, that jointly exploits the two complementary modalities to achieve more robust MOD under challenging scenarios for autonomous driving. Specifically, we first design a temporal multi-scale aggregation module to fully leverage event frames from both the RGB exposure time and larger intervals. Then we introduce a bi-directional fusion module to attentively calibrate and fuse multi-modal features. To evaluate the performance of our network, we carefully select and annotate a sub-MOD dataset from the commonly used DSEC dataset. Extensive experiments demonstrate that our proposed method performs significantly better than the state-of-the-art RGB-Event fusion alternatives. The source code and dataset are publicly available at: https://github.com/ZZY-Zhou/RENet.

arxiv情報

著者 Zhuyun Zhou,Zongwei Wu,Rémi Boutteau,Fan Yang,Cédric Demonceaux,Dominique Ginhac
発行日 2023-03-09 14:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク