Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text

要約

3D 生成の最近の進歩では、グラウンド トゥルース 3D アセットと事前定義されたカメラを備えた合成データセットが活用されています。
ただし、より現実的な 3D シーンを生成できる現実世界のデータセットの採用の可能性は、ほとんど解明されていないままです。
この作業では、現実世界のキャプチャに見られる複雑でシーン固有のカメラの軌跡という重要な課題を詳しく掘り下げます。
現実世界の 3D シーンと適応カメラ軌跡の両方を生成するように設計された、堅牢なオープンワールドのテキストから 3D への生成フレームワークである Director3D を紹介します。
これを達成するために、(1) まず、撮影監督として機能する軌跡拡散トランスを利用し、テキストの説明に基づいてカメラ軌跡の分布をモデル化します。
(2) 次に、ガウス駆動のマルチビュー潜在拡散モデルがデコレータとして機能し、カメラの軌跡とテキストを考慮して画像シーケンスの分布をモデル化します。
2D 拡散モデルから微調整されたこのモデルは、一貫したノイズ除去のための即時 3D シーン表現としてピクセル位置合わせされた 3D ガウスを直接生成します。
(3) 最後に、3D ガウス分布は、2D 拡散モデルの事前分布を組み込んだ Detailer としての新しい SDS++ 損失によって洗練されます。
広範な実験により、Director3D が既存の方法を上回り、現実世界の 3D 生成において優れたパフォーマンスを提供することが実証されました。

要約(オリジナル)

Recent advancements in 3D generation have leveraged synthetic datasets with ground truth 3D assets and predefined cameras. However, the potential of adopting real-world datasets, which can produce significantly more realistic 3D scenes, remains largely unexplored. In this work, we delve into the key challenge of the complex and scene-specific camera trajectories found in real-world captures. We introduce Director3D, a robust open-world text-to-3D generation framework, designed to generate both real-world 3D scenes and adaptive camera trajectories. To achieve this, (1) we first utilize a Trajectory Diffusion Transformer, acting as the Cinematographer, to model the distribution of camera trajectories based on textual descriptions. (2) Next, a Gaussian-driven Multi-view Latent Diffusion Model serves as the Decorator, modeling the image sequence distribution given the camera trajectories and texts. This model, fine-tuned from a 2D diffusion model, directly generates pixel-aligned 3D Gaussians as an immediate 3D scene representation for consistent denoising. (3) Lastly, the 3D Gaussians are refined by a novel SDS++ loss as the Detailer, which incorporates the prior of the 2D diffusion model. Extensive experiments demonstrate that Director3D outperforms existing methods, offering superior performance in real-world 3D generation.

arxiv情報

著者 Xinyang Li,Zhangyu Lai,Linning Xu,Yansong Qu,Liujuan Cao,Shengchuan Zhang,Bo Dai,Rongrong Ji
発行日 2024-06-25 14:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク