StreamMOS: Streaming Moving Object Segmentation with Multi-View Perception and Dual-Span Memory

要約

LiDAR に基づく移動物体のセグメンテーションは、自動運転とモバイル ロボット工学にとって重要かつ困難なタスクです。
ほとんどのアプローチは、LiDAR シーケンスから時空間情報を調査して、現在のフレーム内の移動物体を予測します。
ただし、彼らは多くの場合、単一の推論で時間的手がかりを転送することに重点を置き、すべての予測を他の予測から独立したものと見なします。
これにより、異なるフレーム内の同じオブジェクトに対して一貫性のないセグメンテーション結果が発生する可能性があります。
この問題を解決するために、StreamMOS と呼ばれるメモリ メカニズムを備えたストリーミング ネットワークを提案し、複数の推論間の特徴と予測の関連付けを構築します。
具体的には、歴史的特徴を伝えるために短期記憶を利用します。これは移動する物体の空間的事前情報と見なすことができ、時間的融合によって現在の推論を強化するために採用されます。
一方で、長期記憶を構築して以前の予測を保存し、それを活用して投票を通じてボクセル レベルとインスタンス レベルで現在の予測を改良します。
さらに、さまざまな表現でオブジェクトの動きの特徴を抽出するために、カスケード投影と非対称畳み込みを備えたマルチビューエンコーダを紹介します。
広範な実験により、私たちのアルゴリズムが SemanticKITTI および Sipailou Campus データセットで競争力のあるパフォーマンスを獲得できることが検証されました。
コードは https://github.com/NEU-REAL/StreamMOS.git でリリースされます。

要約(オリジナル)

Moving object segmentation based on LiDAR is a crucial and challenging task for autonomous driving and mobile robotics. Most approaches explore spatio-temporal information from LiDAR sequences to predict moving objects in the current frame. However, they often focus on transferring temporal cues in a single inference and regard every prediction as independent of others. This may cause inconsistent segmentation results for the same object in different frames. To overcome this issue, we propose a streaming network with a memory mechanism, called StreamMOS, to build the association of features and predictions among multiple inferences. Specifically, we utilize a short-term memory to convey historical features, which can be regarded as spatial prior of moving objects and adopted to enhance current inference by temporal fusion. Meanwhile, we build a long-term memory to store previous predictions and exploit them to refine the present forecast at voxel and instance levels through voting. Besides, we present multi-view encoder with cascade projection and asymmetric convolution to extract motion feature of objects in different representations. Extensive experiments validate that our algorithm gets competitive performance on SemanticKITTI and Sipailou Campus datasets. Code will be released at https://github.com/NEU-REAL/StreamMOS.git.

arxiv情報

著者 Zhiheng Li,Yubo Cui,Jiexi Zhong,Zheng Fang
発行日 2024-07-25 09:51:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク