Self-Supervised 3D Scene Flow Estimation and Motion Prediction using Local Rigidity Prior


この記事では、点群上の自己教師あり 3D シーン フロー推定とクラスに依存しない動き予測について調査します。
この観察に基づいて、我々は、ソース点群が局所領域に分解され、各領域が剛体として扱われる、区分的剛体運動推定を通じて自己教師あり学習用の疑似シーン フロー ラベルを生成することを提案します。
各領域をターゲット点群内の潜在的な対応物と厳密に位置合わせすることにより、領域固有の剛体変換を取得して、その疑似フロー ラベルを生成します。
ラベル生成に対する潜在的な外れ値の影響を軽減するために、各領域の剛体位置合わせを解決するときに、点の対応関係の確立、対応関係の信頼度の測定、対応関係とその信頼度に基づいた剛体変換の更新という 3 つのステップを交互に実行します。
FlyingThings3D および KITTI データセットに関する広範な実験により、私たちの手法が、教師ありのグラウンド トゥルース シーン フローを一切使用せずに、自己教師ありシーン フロー学習において新しい最先端のパフォーマンスを達成し、一部の教師付き対応物よりも優れたパフォーマンスを発揮することが実証されました。
さらに、私たちの手法はクラスに依存しない動き予測までさらに拡張されており、nuScenes データセットに対する以前の最先端の自己教師あり手法を大幅に上回っています。


In this article, we investigate self-supervised 3D scene flow estimation and class-agnostic motion prediction on point clouds. A realistic scene can be well modeled as a collection of rigidly moving parts, therefore its scene flow can be represented as a combination of the rigid motion of these individual parts. Building upon this observation, we propose to generate pseudo scene flow labels for self-supervised learning through piecewise rigid motion estimation, in which the source point cloud is decomposed into local regions and each region is treated as rigid. By rigidly aligning each region with its potential counterpart in the target point cloud, we obtain a region-specific rigid transformation to generate its pseudo flow labels. To mitigate the impact of potential outliers on label generation, when solving the rigid registration for each region, we alternately perform three steps: establishing point correspondences, measuring the confidence for the correspondences, and updating the rigid transformation based on the correspondences and their confidence. As a result, confident correspondences will dominate label generation and a validity mask will be derived for the generated pseudo labels. By using the pseudo labels together with their validity mask for supervision, models can be trained in a self-supervised manner. Extensive experiments on FlyingThings3D and KITTI datasets demonstrate that our method achieves new state-of-the-art performance in self-supervised scene flow learning, without any ground truth scene flow for supervision, even performing better than some supervised counterparts. Additionally, our method is further extended to class-agnostic motion prediction and significantly outperforms previous state-of-the-art self-supervised methods on nuScenes dataset.


著者 Ruibo Li,Chi Zhang,Zhe Wang,Chunhua Shen,Guosheng Lin
発行日 2023-10-17 14:06:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク