MVControl: Adding Conditional Control to Multi-view Diffusion for Controllable Text-to-3D Generation


追加の入力条件を組み込むことで、既存の事前トレーニング済みマルチビュー 2D 拡散モデルを強化する新しいニューラル ネットワーク アーキテクチャである MVControl を紹介します。
私たちのアプローチにより、制御可能なマルチビュー画像とビュー一貫性のある 3D コンテンツの生成が可能になります。
制御可能なマルチビュー画像生成を実現するために、MVDream をベースモデルとして活用し、エンドツーエンドのタスク固有の条件学習用の追加プラグインとして新しいニューラル ネットワーク モジュールをトレーニングします。
MVControl がトレーニングされると、スコア蒸留 (SDS) 損失ベースの最適化を実行して 3D コンテンツを生成できます。このプロセスでは、事前にハイブリッド拡散を使用することを提案します。
ハイブリッド プリアは、事前トレーニングされた安定拡散ネットワークと、追加のガイダンスとしてトレーニングされた MVControl に依存します。
広範な実験により、私たちの方法が堅牢な一般化を達成し、高品質の 3D コンテンツの制御可能な生成が可能になることが実証されました。


We introduce MVControl, a novel neural network architecture that enhances existing pre-trained multi-view 2D diffusion models by incorporating additional input conditions, e.g. edge maps. Our approach enables the generation of controllable multi-view images and view-consistent 3D content. To achieve controllable multi-view image generation, we leverage MVDream as our base model, and train a new neural network module as additional plugin for end-to-end task-specific condition learning. To precisely control the shapes and views of generated images, we innovatively propose a new conditioning mechanism that predicts an embedding encapsulating the input spatial and view conditions, which is then injected to the network globally. Once MVControl is trained, score-distillation (SDS) loss based optimization can be performed to generate 3D content, in which process we propose to use a hybrid diffusion prior. The hybrid prior relies on a pre-trained Stable-Diffusion network and our trained MVControl for additional guidance. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content.


著者 Zhiqi Li,Yiming Chen,Lingzhe Zhao,Peidong Liu
発行日 2023-11-24 14:07:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク