要約
オープンドメインの 3D オブジェクト合成は、データが限られていて計算が複雑であるため、画像合成に比べて遅れています。
このギャップを埋めるために、最近の研究ではマルチビューの拡散が研究されていますが、多くの場合、3D の一貫性、視覚的な品質、効率のいずれかにおいて不十分です。
この論文では、SDEdit の 3D 版として機能する MVEdit を提案します。MVEdit は、先祖代々のサンプリングを使用してマルチビュー画像を共同でノイズ除去し、高品質のテクスチャ メッシュを出力します。
既製の 2D 拡散モデルに基づいて構築された MVEdit は、トレーニング不要の 3D アダプターを通じて 3D の一貫性を実現します。これにより、最後のタイムステップの 2D ビューが一貫した 3D 表現に変換され、レンダリングされたビューを使用して次のタイムステップの 2D ビューが調整されます。
、妥協のないビジュアル品質を実現します。
このフレームワークは、推論時間がわずか 2 ~ 5 分であるため、スコア蒸留よりも品質と速度の間で優れたトレードオフを実現します。
MVEdit は多用途性と拡張性が高く、テキスト/画像から 3D への生成、3D から 3D への編集、高品質のテクスチャ合成など、幅広い用途に使用できます。
特に、評価では、画像から 3D タスクとテキストガイドによるテクスチャ生成タスクの両方で最先端のパフォーマンスが実証されています。
さらに、限られたリソースで小さな 3D データセット上で 2D 潜在拡散モデルを微調整する方法を導入し、低解像度のテキストから 3D への高速な初期化を可能にします。
要約(オリジナル)
Open-domain 3D object synthesis has been lagging behind image synthesis due to limited data and higher computational complexity. To bridge this gap, recent works have investigated multi-view diffusion but often fall short in either 3D consistency, visual quality, or efficiency. This paper proposes MVEdit, which functions as a 3D counterpart of SDEdit, employing ancestral sampling to jointly denoise multi-view images and output high-quality textured meshes. Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency through a training-free 3D Adapter, which lifts the 2D views of the last timestep into a coherent 3D representation, then conditions the 2D views of the next timestep using rendered views, without uncompromising visual quality. With an inference time of only 2-5 minutes, this framework achieves better trade-off between quality and speed than score distillation. MVEdit is highly versatile and extendable, with a wide range of applications including text/image-to-3D generation, 3D-to-3D editing, and high-quality texture synthesis. In particular, evaluations demonstrate state-of-the-art performance in both image-to-3D and text-guided texture generation tasks. Additionally, we introduce a method for fine-tuning 2D latent diffusion models on small 3D datasets with limited resources, enabling fast low-resolution text-to-3D initialization.
arxiv情報
著者 | Hansheng Chen,Ruoxi Shi,Yulin Liu,Bokui Shen,Jiayuan Gu,Gordon Wetzstein,Hao Su,Leonidas Guibas |
発行日 | 2024-03-19 16:45:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google