Event-Free Moving Object Segmentation from Moving Ego Vehicle

要約

動的シーンにおける移動物体セグメンテーション (MOS) は、自動運転、特に移動する自我車両から得られるシーケンスについては、重要かつ挑戦的な研究テーマですが、十分に研究されていません。
ほとんどのセグメンテーション手法は、オプティカル フロー マップから取得したモーション キューを利用します。
ただし、これらの方法は多くの場合、連続する RGB フレームから事前に計算されたオプティカル フローに基づいているため、フレーム間で発生するイベントの時間的考慮が無視され、その結果、相対的に静止しているが実際に動いているオブジェクトを識別する能力が制限されます。
これらの制限に対処するために、オプティカル フローに依存せずに豊富なモーション キューを提供するイベント カメラを活用してビデオをより良く理解することを提案します。
この分野の研究を促進するために、まず、移動自車両からの移動オブジェクトのセグメンテーションのための DSEC-MOS と呼ばれる新しい大規模データセットを導入します。これは、この種のものとしては初めてです。
ベンチマークでは、さまざまな主流の手法を選択し、データセット上で厳密に評価します。
その後、イベント データを活用できる新しいネットワークである EmoFormer を考案しました。
この目的のために、イベントの時間的事前情報と空間意味論的マップを融合して、純粋に動いている物体を静的な背景から区別し、関心のあるオブジェクトの周囲に別のレベルの緻密な監視を追加します。
私たちが提案するネットワークは、トレーニング用のイベント データのみに依存しますが、推論中にイベント入力を必要としないため、効率の点でフレームのみの方法に直接匹敵し、多くのアプリケーション ケースでより広く使用できます。
徹底的な比較により、他のすべての方法と比較して、この方法のパフォーマンスが大幅に向上していることがわかります。
ソース コードとデータセットは、https://github.com/ZZY-Zhou/DSEC-MOS で公開されています。

要約(オリジナル)

Moving object segmentation (MOS) in dynamic scenes is an important, challenging, but under-explored research topic for autonomous driving, especially for sequences obtained from moving ego vehicles. Most segmentation methods leverage motion cues obtained from optical flow maps. However, since these methods are often based on optical flows that are pre-computed from successive RGB frames, this neglects the temporal consideration of events occurring within the inter-frame, consequently constraining its ability to discern objects exhibiting relative staticity but genuinely in motion. To address these limitations, we propose to exploit event cameras for better video understanding, which provide rich motion cues without relying on optical flow. To foster research in this area, we first introduce a novel large-scale dataset called DSEC-MOS for moving object segmentation from moving ego vehicles, which is the first of its kind. For benchmarking, we select various mainstream methods and rigorously evaluate them on our dataset. Subsequently, we devise EmoFormer, a novel network able to exploit the event data. For this purpose, we fuse the event temporal prior with spatial semantic maps to distinguish genuinely moving objects from the static background, adding another level of dense supervision around our object of interest. Our proposed network relies only on event data for training but does not require event input during inference, making it directly comparable to frame-only methods in terms of efficiency and more widely usable in many application cases. The exhaustive comparison highlights a significant performance improvement of our method over all other methods. The source code and dataset are publicly available at: https://github.com/ZZY-Zhou/DSEC-MOS.

arxiv情報

著者 Zhuyun Zhou,Zongwei Wu,Danda Pani Paudel,Rémi Boutteau,Fan Yang,Luc Van Gool,Radu Timofte,Dominique Ginhac
発行日 2024-09-25 13:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク