Event-Free Moving Object Segmentation from Moving Ego Vehicle

要約

動的シーンにおける移動物体セグメンテーション (MOS) は、自動運転にとって、特に移動する自車両から得られるシーケンスにとっては困難です。
最先端の手法のほとんどは、オプティカル フロー マップから得られるモーション キューを活用しています。
ただし、これらの方法は多くの場合、連続する RGB フレームから事前に計算されたオプティカル フローに基づいているため、フレーム間で発生するイベントの時間的考慮が無視され、現実の状況でのこれらの方法の実用性が制限されます。
これらの制限に対処するために、オプティカル フローに依存せずに豊富なモーション キューを提供する、ビデオの理解を向上させるイベント カメラを活用することを提案します。
この分野の研究を促進するために、まず、移動する自車両からの移動オブジェクトのセグメンテーションのための DSEC-MOS と呼ばれる新しい大規模データセットを導入します。
その後、イベント データを活用できる新しいネットワークである EmoFormer を考案しました。
この目的のために、事前のイベントを空間意味マップと融合して、移動オブジェクトを静的な背景から区別し、関心のあるオブジェクト、つまり移動オブジェクトの周囲に別のレベルの緻密な監視を追加します。
私たちが提案するネットワークは、トレーニング用のイベント データのみに依存しますが、推論中にイベント入力を必要としないため、効率の点でフレームのみの方法に直接匹敵し、多くのアプリケーション ケースでより広く使用できます。
8 つの最先端のビデオ オブジェクト セグメンテーション手法と徹底的に比較すると、他のすべての手法と比較して、この手法のパフォーマンスが大幅に向上していることがわかります。
プロジェクトページ: https://github.com/ZZY-Zhou/DSEC-MOS。

要約(オリジナル)

Moving object segmentation (MOS) in dynamic scenes is challenging for autonomous driving, especially for sequences obtained from moving ego vehicles. Most state-of-the-art methods leverage motion cues obtained from optical flow maps. However, since these methods are often based on optical flows that are pre-computed from successive RGB frames, this neglects the temporal consideration of events occurring within inter-frame and limits the practicality of these methods in real-life situations. To address these limitations, we propose to exploit event cameras for better video understanding, which provide rich motion cues without relying on optical flow. To foster research in this area, we first introduce a novel large-scale dataset called DSEC-MOS for moving object segmentation from moving ego vehicles. Subsequently, we devise EmoFormer, a novel network able to exploit the event data. For this purpose, we fuse the event prior with spatial semantic maps to distinguish moving objects from the static background, adding another level of dense supervision around our object of interest – moving ones. Our proposed network relies only on event data for training but does not require event input during inference, making it directly comparable to frame-only methods in terms of efficiency and more widely usable in many application cases. An exhaustive comparison with 8 state-of-the-art video object segmentation methods highlights a significant performance improvement of our method over all other methods. Project Page: https://github.com/ZZY-Zhou/DSEC-MOS.

arxiv情報

著者 Zhuyun Zhou,Zongwei Wu,Danda Pani Paudel,Rémi Boutteau,Fan Yang,Luc Van Gool,Radu Timofte,Dominique Ginhac
発行日 2023-11-28 13:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク