Memorize What Matters: Emergent Scene Decomposition from Multitraverse

要約

人間は自然に永続的な要素の記憶を保持しますが、一時的な瞬間はしばしば記憶の隙間から滑り落ちます。
この選択的な保持は、ロボットの認識、位置特定、およびマッピングにとって重要です。
ロボットにこの機能を与えるために、3D ガウス マッピング (3DGM) を導入します。これは、3D ガウス スプラッティングに基づいた自己監視型のカメラ専用オフライン マッピング フレームワークです。
3DGM は、同じ領域からのマルチトラバース RGB ビデオをガウスベースの環境マップに変換し、同時に 2D の一時的なオブジェクトのセグメンテーションを実行します。
私たちの重要な観察は、オブジェクトが頻繁に変化する一方で、環境はトラバース全体にわたって一貫したままであるということです。
これにより、繰り返しのトラバーサルによる自己監視を利用して、環境オブジェクトの分解を達成することができます。
より具体的には、3DGM はマルチトラバース環境マッピングを堅牢な微分可能なレンダリング問題として定式化し、環境とオブジェクトのピクセルをそれぞれインライアとアウトライアとして扱います。
3DGM は、堅牢な特徴抽出、特徴残差マイニング、および堅牢な最適化を使用して、人間の介入なしで 2D セグメンテーションと 3D マッピングを共同で実行します。
Ithaca365 および nuPlan データセットをソースとして Mapverse ベンチマークを構築し、教師なし 2D セグメンテーション、3D 再構成、およびニューラル レンダリングにおける手法を評価します。
広範な結果により、自動運転とロボット工学における当社の手法の有効性と可能性が検証されています。

要約(オリジナル)

Humans naturally retain memories of permanent elements, while ephemeral moments often slip through the cracks of memory. This selective retention is crucial for robotic perception, localization, and mapping. To endow robots with this capability, we introduce 3D Gaussian Mapping (3DGM), a self-supervised, camera-only offline mapping framework grounded in 3D Gaussian Splatting. 3DGM converts multitraverse RGB videos from the same region into a Gaussian-based environmental map while concurrently performing 2D ephemeral object segmentation. Our key observation is that the environment remains consistent across traversals, while objects frequently change. This allows us to exploit self-supervision from repeated traversals to achieve environment-object decomposition. More specifically, 3DGM formulates multitraverse environmental mapping as a robust differentiable rendering problem, treating pixels of the environment and objects as inliers and outliers, respectively. Using robust feature distillation, feature residuals mining, and robust optimization, 3DGM jointly performs 2D segmentation and 3D mapping without human intervention. We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and neural rendering. Extensive results verify the effectiveness and potential of our method for self-driving and robotics.

arxiv情報

著者 Yiming Li,Zehong Wang,Yue Wang,Zhiding Yu,Zan Gojcic,Marco Pavone,Chen Feng,Jose M. Alvarez
発行日 2024-05-29 23:32:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク