要約
私たちは、実際の大規模な生の点群シーケンスからの自己教師あり 3D シーン フロー推定の問題を研究します。これは、軌道予測やインスタンス セグメンテーションなどのさまざまなタスクにとって重要です。
グラウンド トゥルース シーン フロー ラベルがない場合、現代のアプローチは、フローとオブジェクトの剛性に構造ベースの正則化を組み込むことによって、点群の連続するペアにわたるフローの最適化を推定することに集中しています。
剛体は、さまざまな 3D 空間クラスタリング手法によって推定されます。
最先端の方法では、ニューラル プライア構造を使用してシーン全体の動きをうまくキャプチャできますが、複数のオブジェクトの動きを識別する際に課題が発生します。
我々は、現在のアプローチの主な落とし穴として、構造的制約と大きくて厳密な剛体クラスターの使用を特定し、オーバーラップするソフト クラスターとオーバーラップしない剛体クラスター表現の組み合わせを可能にする新しいクラスタリング アプローチを提案します。
次に、固定サイズのオーバーラップするソフト クラスターと、徐々に成長するオーバーラップしないリジッド クラスターを組み合わせて流れを推定します。
LiDAR 点群を使用して複数のデータセットでメソッドを評価し、自己監視ベースラインを超える優れたパフォーマンスを実証し、新しい最先端の結果に達しました。
私たちの方法は、歩行者、自転車、その他の弱い立場の道路利用者を含む、複数の独立して移動する物体が互いに接近している複雑な動的シーンにおける流れの解決に特に優れています。
私たちのコードは https://github.com/ctu-vras/let-it-flow で公開されています。
要約(オリジナル)
We study the problem of self-supervised 3D scene flow estimation from real large-scale raw point cloud sequences, which is crucial to various tasks like trajectory prediction or instance segmentation. In the absence of ground truth scene flow labels, contemporary approaches concentrate on deducing optimizing flow across sequential pairs of point clouds by incorporating structure based regularization on flow and object rigidity. The rigid objects are estimated by a variety of 3D spatial clustering methods. While state-of-the-art methods successfully capture overall scene motion using the Neural Prior structure, they encounter challenges in discerning multi-object motions. We identified the structural constraints and the use of large and strict rigid clusters as the main pitfall of the current approaches and we propose a novel clustering approach that allows for combination of overlapping soft clusters as well as non-overlapping rigid clusters representation. Flow is then jointly estimated with progressively growing non-overlapping rigid clusters together with fixed size overlapping soft clusters. We evaluate our method on multiple datasets with LiDAR point clouds, demonstrating the superior performance over the self-supervised baselines reaching new state of the art results. Our method especially excels in resolving flow in complicated dynamic scenes with multiple independently moving objects close to each other which includes pedestrians, cyclists and other vulnerable road users. Our codes are publicly available on https://github.com/ctu-vras/let-it-flow.
arxiv情報
著者 | Patrik Vacek,David Hurych,Tomáš Svoboda,Karel Zimmermann |
発行日 | 2024-08-13 14:24:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google