要約
LiDAR ポイントのセマンティック セグメンテーションは、自動運転システムや移動ロボット システムにとって大きな価値があります。
ほとんどのアプローチは、マルチスキャンの時空間情報を調査して、各点の意味クラスと運動状態を特定します。
ただし、これらの方法では空間と時間におけるセグメンテーションの一貫性が見落とされることが多く、その結果、同じオブジェクト内の点群が異なるカテゴリとして予測される可能性があります。
この問題に対処するために、私たちの中心的なアイデアは、オブジェクトの完全な空間構造と時間情報を反映できるクラスター ラベルを複数のフレームにわたって生成することです。
これらのラベルは、ポイントベースとクラスターベースのブランチを統合して、より一貫したセグメンテーションを可能にするデュアルブランチ ネットワーク 4D-CS の明示的なガイダンスとして機能します。
具体的には、ポイントベースのブランチでは、履歴知識を活用して、複数のビューでの時間的融合を通じて現在のフィーチャを強化します。
クラスターベースのブランチでは、前景オブジェクトのクラスター ラベルを生成し、それらを適用してポイントごとの情報を収集し、クラスターの特徴を導き出す新しい戦略を提案します。
次に、複数のスキャンにわたって隣接するクラスターをマージし、オクルージョンによって失われた特徴を復元します。
最後に、ポイントとクラスターの融合段階で、2 つのブランチからの情報を適応的に融合して、セグメンテーションの結果を最適化します。
広範な実験により、提案された方法の有効性が確認され、SemanticKITTI および nuScenes データセットでのマルチスキャン セマンティックおよび移動オブジェクト セグメンテーションに関する最先端の結果が得られました。
コードは https://github.com/NEU-REAL/4D-CS.git で入手できます。
要約(オリジナル)
Semantic segmentation of LiDAR points has significant value for autonomous driving and mobile robot systems. Most approaches explore spatio-temporal information of multi-scan to identify the semantic classes and motion states for each point. However, these methods often overlook the segmentation consistency in space and time, which may result in point clouds within the same object being predicted as different categories. To handle this issue, our core idea is to generate cluster labels across multiple frames that can reflect the complete spatial structure and temporal information of objects. These labels serve as explicit guidance for our dual-branch network, 4D-CS, which integrates point-based and cluster-based branches to enable more consistent segmentation. Specifically, in the point-based branch, we leverage historical knowledge to enrich the current feature through temporal fusion on multiple views. In the cluster-based branch, we propose a new strategy to produce cluster labels of foreground objects and apply them to gather point-wise information to derive cluster features. We then merge neighboring clusters across multiple scans to restore missing features due to occlusion. Finally, in the point-cluster fusion stage, we adaptively fuse the information from the two branches to optimize segmentation results. Extensive experiments confirm the effectiveness of the proposed method, and we achieve state-of-the-art results on the multi-scan semantic and moving object segmentation on SemanticKITTI and nuScenes datasets. The code will be available at https://github.com/NEU-REAL/4D-CS.git.
arxiv情報
著者 | Jiexi Zhong,Zhiheng Li,Yubo Cui,Zheng Fang |
発行日 | 2025-01-06 11:23:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google