MagicDrive: Street View Generation with Diverse 3D Geometry Control

要約

拡散モデルの最近の進歩により、2D 制御によるデータ合成が大幅に強化されました。
しかし、3D 認識タスクに不可欠なストリート ビュー生成における正確な 3D 制御は依然として困難です。
具体的には、鳥瞰図 (BEV) を主な条件として利用すると、形状制御 (高さなど) に課題が生じ、オブジェクトの形状、オクルージョン パターン、路面の高さの表現に影響を与えることが多く、これらすべてが知覚データに不可欠です。
合成、特に 3D オブジェクト検出タスク向け。
このペーパーでは、カメラのポーズ、道路地図、3D バウンディング ボックスなどの多様な 3D ジオメトリ コントロールと、カスタマイズされたエンコード戦略を通じて実現されるテキストの説明を提供する、新しいストリート ビュー生成フレームワークである MagicDrive を紹介します。
さらに、当社の設計にはクロスビュー アテンション モジュールが組み込まれており、複数のカメラ ビュー間での一貫性が確保されています。
MagicDrive を使用すると、微妙な 3D ジオメトリやさまざまなシーンの説明をキャプチャする高忠実度のストリートビュー合成が実現し、BEV セグメンテーションや 3D オブジェクト検出などのタスクが強化されます。

要約(オリジナル)

Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird’s-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework offering diverse 3D geometry controls, including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection.

arxiv情報

著者 Ruiyuan Gao,Kai Chen,Enze Xie,Lanqing Hong,Zhenguo Li,Dit-Yan Yeung,Qiang Xu
発行日 2024-01-26 10:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク