要約
Lidar Point Cloudsの移動オブジェクトセグメンテーション(MO)は、自動運転車などの自律システムにとって重要です。
以前の監視されたアプローチは、費用のかかる手動注釈に大きく依存していますが、LIDARシーケンスは、自立した学習のために活用できる一時的な動きの手がかりを自然にキャプチャします。
この論文では、\ textbf {t} empolal \ textbf {o} verlopping \ textbf {p} rediction(\ textbf {top})を提案します。
\ textBf {TOP}は、電流および隣接するスキャンによって一般的に観察される時間的重複点を調査し、時間的重複ポイントの占有状態を予測することにより、時空間表現を学習します。
さらに、現在の占有再構成を補助前訓練目標として利用し、モデルの現在の構造認識を高めます。
広範な実験を実施し、従来のメトリック交差点(IOU)が、よりスキャンされたポイントを持つオブジェクトに強いバイアスを示すことを観察します。
このバイアスを補うために、オブジェクトレベルのパフォーマンスを評価するために、$ \ text {miou} _ {\ text {obj}} $と呼ばれる追加のメトリックを導入します。
NuscenesとSemantickittiの実験は、\ TextBf {Top}が、監視されたトレーニングベースラインとその他の自己監視前のトレーニングベースラインの両方を最大28.77%の相対的な改善により上回ることを示しています。
コードと事前に訓練されたモデルは、公開時に公開されます。
要約(オリジナル)
Moving object segmentation (MOS) on LiDAR point clouds is crucial for autonomous systems like self-driving vehicles. Previous supervised approaches rely heavily on costly manual annotations, while LiDAR sequences naturally capture temporal motion cues that can be leveraged for self-supervised learning. In this paper, we propose \textbf{T}emporal \textbf{O}verlapping \textbf{P}rediction (\textbf{TOP}), a self-supervised pre-training method that alleviate the labeling burden for MOS. \textbf{TOP} explores the temporal overlapping points that commonly observed by current and adjacent scans, and learns spatiotemporal representations by predicting the occupancy states of temporal overlapping points. Moreover, we utilize current occupancy reconstruction as an auxiliary pre-training objective, which enhances the current structural awareness of the model. We conduct extensive experiments and observe that the conventional metric Intersection-over-Union (IoU) shows strong bias to objects with more scanned points, which might neglect small or distant objects. To compensate for this bias, we introduce an additional metric called $\text{mIoU}_{\text{obj}}$ to evaluate object-level performance. Experiments on nuScenes and SemanticKITTI show that \textbf{TOP} outperforms both supervised training-from-scratch baseline and other self-supervised pre-training baselines by up to 28.77\% relative improvement, demonstrating strong transferability across LiDAR setups and generalization to other tasks. Code and pre-trained models will be publicly available upon publication.
arxiv情報
著者 | Ziliang Miao,Runjian Chen,Yixi Cai,Buwei He,Wenquan Zhao,Wenqi Shao,Bo Zhang,Fu Zhang |
発行日 | 2025-03-10 10:44:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google