Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation

要約

近年、3D 生成モデルの強力なパワーが実証されており、ユーザーが 1 つの画像または自然言語を通じて 3D コンテンツ生成プロセスをガイドできるため、新しいレベルのクリエイティブな柔軟性が提供されます。
ただし、既存の 3D 生成方法では、多様なプロンプトにわたって主題主導の 3D コンテンツを作成することは依然として困難です。
この論文では、Make-Your-3D と呼ばれる新しい 3D カスタマイズ方法を紹介します。この方法では、5 分以内にテキスト説明付きの被写体の 1 枚の画像から高忠実度で一貫した 3D コンテンツをカスタマイズできます。
私たちの重要な洞察は、マルチビュー拡散モデルとアイデンティティ固有の 2D 生成モデルの分布を調和させ、それらを目的の 3D 被写体の分布と一致させることです。
具体的には、分布の分散を減らすための共進化フレームワークを設計します。このフレームワークでは、各モデルが、それぞれアイデンティティを意識した最適化と主体優先最適化を通じて、他のモデルから学習するプロセスを受けます。
広範な実験により、私たちの方法が、被写体の画像には見られないテキスト駆動の変更を加えた、高品質で一貫性のある被写体固有の 3D コンテンツを生成できることが実証されました。

要約(オリジナル)

Recent years have witnessed the strong power of 3D generation models, which offer a new level of creative flexibility by allowing users to guide the 3D content generation process through a single image or natural language. However, it remains challenging for existing 3D generation methods to create subject-driven 3D content across diverse prompts. In this paper, we introduce a novel 3D customization method, dubbed Make-Your-3D that can personalize high-fidelity and consistent 3D content from only a single image of a subject with text description within 5 minutes. Our key insight is to harmonize the distributions of a multi-view diffusion model and an identity-specific 2D generative model, aligning them with the distribution of the desired 3D subject. Specifically, we design a co-evolution framework to reduce the variance of distributions, where each model undergoes a process of learning from the other through identity-aware optimization and subject-prior optimization, respectively. Extensive experiments demonstrate that our method can produce high-quality, consistent, and subject-specific 3D content with text-driven modifications that are unseen in subject image.

arxiv情報

著者 Fangfu Liu,Hanyang Wang,Weiliang Chen,Haowen Sun,Yueqi Duan
発行日 2024-03-14 17:57:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク