要約
単一のRGB画像から高品質の3Dシーンを回復することは、コンピューターグラフィックスでは困難なタスクです。
現在の方法は、多くの場合、ドメイン固有の制限または低品質のオブジェクト生成と闘っています。
これらに対処するために、3Dシーンの再構築と回復のための新しい方法であるCAST(単一のRGB画像からのコンポーネントに並べられた3Dシーンの再構築)を提案します。
キャストは、オブジェクトレベルの2Dセグメンテーションと入力画像から相対的な深さ情報を抽出し、GPTベースのモデルを使用してオブジェクト間空間関係を分析することから始めます。
これにより、シーン内でオブジェクトがどのように相互に関連するかを理解し、より一貫した再構成を保証します。
次に、CASTは、Occlusion-Awareの大規模な3D生成モデルを採用して、各オブジェクトの完全なジオメトリを独立して生成し、MAEとポイントクラウドコンディショニングを使用して、オクルージョンと部分オブジェクト情報の効果を軽減し、ソース画像のジオメトリとテクスチャとの正確なアライメントを確保します。
各オブジェクトをシーンに合わせるために、アライメント生成モデルは必要な変換を計算し、生成されたメッシュを正確に配置してシーンのポイントクラウドに統合できるようにします。
最後に、CASTは、細粒の関係グラフを活用して制約グラフを生成する物理認識補正ステップを組み込んでいます。
このグラフは、オブジェクトのポーズの最適化を導き、物理的な一貫性と空間的一貫性を確保します。
署名された距離フィールド(SDF)を利用することにより、モデルは閉塞、オブジェクトの浸透、浮動オブジェクトなどの問題に効果的に対処し、生成されたシーンが実際の物理的相互作用を正確に反映するようにします。
キャストはロボット工学で活用され、効率的なリアルからシミュレーションへのワークフローを可能にし、ロボットシステムに現実的でスケーラブルなシミュレーション環境を提供できます。
要約(オリジナル)
Recovering high-quality 3D scenes from a single RGB image is a challenging task in computer graphics. Current methods often struggle with domain-specific limitations or low-quality object generation. To address these, we propose CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel method for 3D scene reconstruction and recovery. CAST starts by extracting object-level 2D segmentation and relative depth information from the input image, followed by using a GPT-based model to analyze inter-object spatial relationships. This enables the understanding of how objects relate to each other within the scene, ensuring more coherent reconstruction. CAST then employs an occlusion-aware large-scale 3D generation model to independently generate each object’s full geometry, using MAE and point cloud conditioning to mitigate the effects of occlusions and partial object information, ensuring accurate alignment with the source image’s geometry and texture. To align each object with the scene, the alignment generation model computes the necessary transformations, allowing the generated meshes to be accurately placed and integrated into the scene’s point cloud. Finally, CAST incorporates a physics-aware correction step that leverages a fine-grained relation graph to generate a constraint graph. This graph guides the optimization of object poses, ensuring physical consistency and spatial coherence. By utilizing Signed Distance Fields (SDF), the model effectively addresses issues such as occlusions, object penetration, and floating objects, ensuring that the generated scene accurately reflects real-world physical interactions. CAST can be leveraged in robotics, enabling efficient real-to-simulation workflows and providing realistic, scalable simulation environments for robotic systems.
arxiv情報
著者 | Kaixin Yao,Longwen Zhang,Xinhao Yan,Yan Zeng,Qixuan Zhang,Lan Xu,Wei Yang,Jiayuan Gu,Jingyi Yu |
発行日 | 2025-02-18 14:29:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google