DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data

要約

テキスト プロンプトから高品質の 3D アセット (Neural Radiance Fields で表される) を作成するための拡散ベースの 3D 生成モデルである DIRECT-3D を紹介します。
クリーンで整列された 3D データに依存し、単一クラスまたは数クラスの生成に限定される最近の 3D 生成モデルとは異なり、私たちのモデルは、ノイズが多く整列されていない広範な「実際の」3D アセットで直接トレーニングされ、主要な課題を軽減します。
大規模な 3D 生成におけるデータ不足(つまり、データ不足)。
特に、DIRECT-3D は、次の 2 つの革新を統合したトライプレーン拡散モデルです。 1) ノイズを含むデータがトレーニング プロセス中に自動的にフィルタリングされ、調整される新しい学習フレームワーク。
具体的には、クリーンなデータの小さなセットを使用した最初のウォームアップ段階の後、拡散プロセスに反復的な最適化が導入され、オブジェクトの 3D 姿勢が明示的に推定され、条件付き密度に基づいて有益なデータが選択されます。
2) 階層的に最適化された 2 つの個別の条件付き拡散モデルを使用して、オブジェクトのジオメトリと色の特徴を解きほぐすことによって実現される効率的な 3D 表現。
プロンプトの入力が与えられると、モデルは正確な幾何学的詳細を備えた高品質、高解像度、リアルで複雑な 3D オブジェクトを数秒で生成します。
単一クラス生成とテキストから 3D への生成の両方で最先端のパフォーマンスを実現します。
また、DIRECT-3D が、たとえば DreamFusion などの 2D リフティング手法におけるよく知られたヤヌス問題を軽減するために、オブジェクトの有用な 3D 幾何学的事前分布として機能することも示します。
コードとモデルは、研究目的で https://github.com/qihao067/direct3d から入手できます。

要約(オリジナル)

We present DIRECT-3D, a diffusion-based 3D generative model for creating high-quality 3D assets (represented by Neural Radiance Fields) from text prompts. Unlike recent 3D generative models that rely on clean and well-aligned 3D data, limiting them to single or few-class generation, our model is directly trained on extensive noisy and unaligned `in-the-wild’ 3D assets, mitigating the key challenge (i.e., data scarcity) in large-scale 3D generation. In particular, DIRECT-3D is a tri-plane diffusion model that integrates two innovations: 1) A novel learning framework where noisy data are filtered and aligned automatically during the training process. Specifically, after an initial warm-up phase using a small set of clean data, an iterative optimization is introduced in the diffusion process to explicitly estimate the 3D pose of objects and select beneficial data based on conditional density. 2) An efficient 3D representation that is achieved by disentangling object geometry and color features with two separate conditional diffusion models that are optimized hierarchically. Given a prompt input, our model generates high-quality, high-resolution, realistic, and complex 3D objects with accurate geometric details in seconds. We achieve state-of-the-art performance in both single-class generation and text-to-3D generation. We also demonstrate that DIRECT-3D can serve as a useful 3D geometric prior of objects, for example to alleviate the well-known Janus problem in 2D-lifting methods such as DreamFusion. The code and models are available for research purposes at: https://github.com/qihao067/direct3d.

arxiv情報

著者 Qihao Liu,Yi Zhang,Song Bai,Adam Kortylewski,Alan Yuille
発行日 2024-06-07 02:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク