MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model

要約

LiDAR ベースの移動物体セグメンテーション (MOS) は、以前のスキャンからの動き情報を使用して、現在のスキャンの点群内の移動物体の位置を特定し、セグメント化することを目的としています。
これまでの MOS 手法によって達成された有望な結果にもかかわらず、時間情報と空間情報の弱い結合など、いくつかの重要な問題についてはまださらなる研究が必要です。
この論文では、MambaMOS と呼ばれる、動きを認識した状態空間モデルを使用した新しい LiDAR ベースの 3D 移動物体セグメンテーションを提案します。
まず、点群における時間的情報と空間的情報の結合を強化し、時間的手がかりの見落としの問題を軽減するために、新しい埋め込みモジュールである時間手がかりブートストラッピング埋め込み (TCBE) を開発します。
次に、モーション認識状態空間モデル (MSSM) を導入して、異なるタイム ステップにわたる同じオブジェクトの時間的相関を理解する能力をモデルに与えます。
具体的には、MSSM は、2 つの異なる時間モデリングと相関ステップを通じて、異なるタイム ステップでの同じオブジェクトの運動状態を強調します。
これらの運動の違いを表現するために改良された状態空間モデルを利用し、運動状態を大幅にモデル化します。
最後に、SemanticKITTI-MOS および KITTI-Road ベンチマークに関する広範な実験により、提案された MambaMOS が最先端のパフォーマンスを達成することが実証されました。
ソース コードは https://github.com/terminal-K/MambaMOS で公開されています。

要約(オリジナル)

LiDAR-based Moving Object Segmentation (MOS) aims to locate and segment moving objects in point clouds of the current scan using motion information from previous scans. Despite the promising results achieved by previous MOS methods, several key issues, such as the weak coupling of temporal and spatial information, still need further study. In this paper, we propose a novel LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model, termed MambaMOS. Firstly, we develop a novel embedding module, the Time Clue Bootstrapping Embedding (TCBE), to enhance the coupling of temporal and spatial information in point clouds and alleviate the issue of overlooked temporal clues. Secondly, we introduce the Motion-aware State Space Model (MSSM) to endow the model with the capacity to understand the temporal correlations of the same object across different time steps. Specifically, MSSM emphasizes the motion states of the same object at different time steps through two distinct temporal modeling and correlation steps. We utilize an improved state space model to represent these motion differences, significantly modeling the motion states. Finally, extensive experiments on the SemanticKITTI-MOS and KITTI-Road benchmarks demonstrate that the proposed MambaMOS achieves state-of-the-art performance. The source code is publicly available at https://github.com/Terminal-K/MambaMOS.

arxiv情報

著者 Kang Zeng,Hao Shi,Jiacheng Lin,Siyu Li,Jintao Cheng,Kaiwei Wang,Zhiyong Li,Kailun Yang
発行日 2024-08-06 03:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV パーマリンク