Unsupervised 4D LiDAR Moving Object Segmentation in Stationary Settings with Multivariate Occupancy Time Series

要約

この作業では、グラウンド トゥルース アノテーションが含まれていない固定センサーから記録された 4D LiDAR データにおける教師なし移動オブジェクト セグメンテーション (MOS) の問題に対処します。
LiDAR MOS 向けのディープラーニングに基づく最先端の方法は、注釈付きのグラウンド トゥルース データに大きく依存しています。
定常設定でのこのギャップを埋めるために、教師なし MOS の問題を時系列クラスタリングの問題に緩和する多変量時系列に基づく新しい 4D LiDAR 表現を提案します。
より具体的には、多変量占有時系列 (MOTS) によってボクセルの占有率の変化をモデル化することを提案します。MOTS は、ボクセル レベルとその周辺での時空間占有率の変化を捉えます。
教師なし MOS を実行するために、自己教師ありの方法でニューラル ネットワークをトレーニングし、MOTS をボクセル レベルの特徴表現にエンコードします。これは、クラスタリング アルゴリズムによって移動または静止に分割できます。
Raw KITTI データセットからの静止シーンでの実験は、完全に教師なしのアプローチが、教師ありの最先端のアプローチに匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

In this work, we address the problem of unsupervised moving object segmentation (MOS) in 4D LiDAR data recorded from a stationary sensor, where no ground truth annotations are involved. Deep learning-based state-of-the-art methods for LiDAR MOS strongly depend on annotated ground truth data, which is expensive to obtain and scarce in existence. To close this gap in the stationary setting, we propose a novel 4D LiDAR representation based on multivariate time series that relaxes the problem of unsupervised MOS to a time series clustering problem. More specifically, we propose modeling the change in occupancy of a voxel by a multivariate occupancy time series (MOTS), which captures spatio-temporal occupancy changes on the voxel level and its surrounding neighborhood. To perform unsupervised MOS, we train a neural network in a self-supervised manner to encode MOTS into voxel-level feature representations, which can be partitioned by a clustering algorithm into moving or stationary. Experiments on stationary scenes from the Raw KITTI dataset show that our fully unsupervised approach achieves performance that is comparable to that of supervised state-of-the-art approaches.

arxiv情報

著者 Thomas Kreutz,Max Mühlhäuser,Alejandro Sanchez Guinea
発行日 2023-01-12 12:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク