MagicDrive: Street View Generation with Diverse 3D Geometry Control

要約

近年の拡散モデルの進歩により、2D制御によるデータ合成が大幅に向上した。しかし、3D知覚タスクに重要なストリートビュー生成における正確な3D制御は、依然として達成されていない。特に、鳥瞰図(BEV)を主要な条件として利用することは、しばしば形状制御(例えば、高さ)に課題をもたらし、物体形状、オクルージョンパターン、路面高度の表現に影響を与える。本論文では、MagicDriveを紹介する。MagicDriveは、カメラのポーズ、道路地図、3Dバウンディングボックスを含む多様な3Dジオメトリ制御を提供する新しいストリートビュー生成フレームワークである。さらに、我々のデザインはクロスビューアテンションモジュールを組み込み、複数のカメラビューにわたる一貫性を保証します。MagicDriveにより、私たちはニュアンスに富んだ3Dジオメトリと様々なシーン説明をキャプチャし、BEVセグメンテーションと3Dオブジェクト検出のようなタスクを強化する、忠実度の高いストリートビュー画像とビデオの合成を達成します。

要約(オリジナル)

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird’s-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework, offering diverse 3D geometry controls including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view image & video synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.

arxiv情報

著者 Ruiyuan Gao,Kai Chen,Enze Xie,Lanqing Hong,Zhenguo Li,Dit-Yan Yeung,Qiang Xu
発行日 2024-03-01 06:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク