SMORE: Simultaneous Map and Object REconstruction

要約

Lidarからの大規模な都市シーンの動的な表面再構築の方法を提示します。
深さベースの再構成は、移動オブジェクトを外れ値として扱う小規模なオブジェクトまたは大規模なスラム再構成に焦点を当てる傾向があります。
私たちは全体的な視点を取り、世界を厳格に動くオブジェクトと背景に分解する動的なシーンの構成モデルを最適化します。
これを達成するために、最近の新規ビューの合成方法からインスピレーションを得て、再構成問題を神経表面、自我のポーズ、およびオブジェクトポーズよりもグローバルな最適化としてフレーム化します。
通常、勾配降下を伴う2Dエラーを最小限に抑える合成法とは対照的に、座標降下により3Dポイントツーサーフェスエラーを最小限に抑えます。
各ステップは、再トレーニングなしで既製のメソッドで適切に処理できます。
ローリングシャッターリダーの表面再構成ステップを分析し、連続時間に共通するデッキー操作も動的なオブジェクトに適用できることを示し、以前のアートにわたる結果を数桁改善します。
それ自体の目標として動的な再構築を追求するだけでなく、そのようなシステムを使用して、部分的に注釈付きシーケンスを自動するために使用し、深さの完了やシーンの流れなどのラベルが困難な問題のためのグラウンドトゥルースアノテーションを生成できることを提案します。
視覚的な結果については、https://anishmadan23.github.io/smore/をご覧ください。

要約(オリジナル)

We present a method for dynamic surface reconstruction of large-scale urban scenes from LiDAR. Depth-based reconstructions tend to focus on small-scale objects or large-scale SLAM reconstructions that treat moving objects as outliers. We take a holistic perspective and optimize a compositional model of a dynamic scene that decomposes the world into rigidly-moving objects and the background. To achieve this, we take inspiration from recent novel view synthesis methods and frame the reconstruction problem as a global optimization over neural surfaces, ego poses, and object poses, which minimizes the error between composed spacetime surfaces and input LiDAR scans. In contrast to view synthesis methods, which typically minimize 2D errors with gradient descent, we minimize a 3D point-to-surface error by coordinate descent, which we decompose into registration and surface reconstruction steps. Each step can be handled well by off-the-shelf methods without any re-training. We analyze the surface reconstruction step for rolling-shutter LiDARs, and show that deskewing operations common in continuous time SLAM can be applied to dynamic objects as well, improving results over prior art by an order of magnitude. Beyond pursuing dynamic reconstruction as a goal in and of itself, we propose that such a system can be used to auto-label partially annotated sequences and produce ground truth annotation for hard-to-label problems such as depth completion and scene flow. Please see https://anishmadan23.github.io/smore/ for more visual results.

arxiv情報

著者 Nathaniel Chodosh,Anish Madan,Simon Lucey,Deva Ramanan
発行日 2025-05-06 17:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク