要約
限られた観察から効率的で身体的に一貫した世界モデルを構築することは、ビジョンとロボット工学における長年の課題です。
多くの既存の世界モデリングパイプラインは、訓練が難しく、しばしば3Dまたは物理的な一貫性を欠いている暗黙の生成モデルに基づいています。
一方、単一の状態から構築された明示的な3Dメソッドは、多くの場合、セグメンテーション、バックグラウンドの完了、およびオクルージョンへの入力距離など、マルチステージ処理などを必要とします。
これに対処するために、異なるオブジェクト構成の下で同じシーンの2つの乱れた観測値を活用します。
これらの二重状態は、補完的な可視性を提供し、状態の移行中の閉塞の問題を緩和し、より安定した完全な再建を可能にします。
この論文では、DSG-Worldを提示します。DSG-Worldは、デュアル状態観測から3Dガウス世界モデルを明示的に構築する新しいエンドツーエンドフレームワークです。
私たちのアプローチは、デュアルセグメンテーションを意識したガウスフィールドを構築し、双方向の測光およびセマンティックの一貫性を実施します。
さらに、幾何学的な完全性を改良するために、対称的なアライメントと設計コラボレーションの共同導入戦略のための擬似中間状態を導入します。
DSG-Worldは、明示的なガウス表現スペースで純粋に効率的な実質からシミュレーションへの転送を可能にし、密な観察やマルチステージパイプラインに依存することなく、高忠実度のレンダリングとオブジェクトレベルのシーン操作をサポートします。
広範な実験は、新しい見解とシーンの状態に対する強い一般化を示しており、現実世界の3D再構成とシミュレーションに対するアプローチの有効性を強調しています。
要約(オリジナル)
Building an efficient and physically consistent world model from limited observations is a long standing challenge in vision and robotics. Many existing world modeling pipelines are based on implicit generative models, which are hard to train and often lack 3D or physical consistency. On the other hand, explicit 3D methods built from a single state often require multi-stage processing-such as segmentation, background completion, and inpainting-due to occlusions. To address this, we leverage two perturbed observations of the same scene under different object configurations. These dual states offer complementary visibility, alleviating occlusion issues during state transitions and enabling more stable and complete reconstruction. In this paper, we present DSG-World, a novel end-to-end framework that explicitly constructs a 3D Gaussian World model from Dual State observations. Our approach builds dual segmentation-aware Gaussian fields and enforces bidirectional photometric and semantic consistency. We further introduce a pseudo intermediate state for symmetric alignment and design collaborative co-pruning trategies to refine geometric completeness. DSG-World enables efficient real-to-simulation transfer purely in the explicit Gaussian representation space, supporting high-fidelity rendering and object-level scene manipulation without relying on dense observations or multi-stage pipelines. Extensive experiments demonstrate strong generalization to novel views and scene states, highlighting the effectiveness of our approach for real-world 3D reconstruction and simulation.
arxiv情報
著者 | Wenhao Hu,Xuexiang Wen,Xi Li,Gaoang Wang |
発行日 | 2025-06-05 16:33:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google