MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes


画像やビデオの制御可能な生成モデルは目覚ましい成功を収めていますが、3D シーン用の高品質モデル、特に自動運転などの無制限のシナリオでは、データ取得コストが高いため、開発が不十分なままです。
このペーパーでは、BEV マップ、3D オブジェクト、テキスト記述を含む複数条件制御をサポートする、制御可能な 3D ストリート シーン生成のための新しいパイプラインである MagicDrive3D を紹介します。
生成モデルをトレーニングする前に再構築する以前の方法とは異なり、MagicDrive3D は最初にビデオ生成モデルをトレーニングし、次に生成されたデータから再構築します。
生成されたコンテンツの軽微なエラーに対処するために、視点間の露出の不一致を管理するために、単眼の深さの初期化と外観モデリングを備えた変形可能なガウス スプラッティングを提案します。
nuScenes データセットで検証された MagicDrive3D は、エニービュー レンダリングをサポートし、BEV セグメンテーションなどの下流タスクを強化する、多様で高品質の 3D ドライビング シーンを生成します。


While controllable generative models for images and videos have achieved remarkable success, high-quality models for 3D scenes, particularly in unbounded scenarios like autonomous driving, remain underdeveloped due to high data acquisition costs. In this paper, we introduce MagicDrive3D, a novel pipeline for controllable 3D street scene generation that supports multi-condition control, including BEV maps, 3D objects, and text descriptions. Unlike previous methods that reconstruct before training the generative models, MagicDrive3D first trains a video generation model and then reconstructs from the generated data. This innovative approach enables easily controllable generation and static scene acquisition, resulting in high-quality scene reconstruction. To address the minor errors in generated content, we propose deformable Gaussian splatting with monocular depth initialization and appearance modeling to manage exposure discrepancies across viewpoints. Validated on the nuScenes dataset, MagicDrive3D generates diverse, high-quality 3D driving scenes that support any-view rendering and enhance downstream tasks like BEV segmentation. Our results demonstrate the framework’s superior performance, showcasing its potential for autonomous driving simulation and beyond.


著者 Ruiyuan Gao,Kai Chen,Zhihao Li,Lanqing Hong,Zhenguo Li,Qiang Xu
発行日 2024-11-20 10:43:51+00:00
カテゴリー: cs.AI, cs.CV パーマリンク