要約
最近、テキストから画像への生成は目覚ましい進歩を示し、視覚的に印象的な結果を生み出すことができました。
対照的に、テキストから 3D への生成は、まだ同等の品質レベルに達していません。
既存の方法は主にテキストガイドによるスコア蒸留サンプリング (SDS) に依存しており、生成された画像の 2D 属性を 3D コンテンツに転送する際に困難が生じます。
この研究では、テキスト情報と画像情報の両方を活用して、高解像度のテクスチャ メッシュを合成できる効果的な 3D 生成モデルを開発することを目指しています。
この目的を達成するために、拡散モデルに基づいて 3D アバターを生成するための、ゼロショットのテキストと画像のガイド付き生成モデルである Guide3D を導入します。
私たちのモデルには、(1) 拡散モデルを使用してテキスト一貫性のある文字のスパース ビュー画像を生成すること、および (2) ピクセル位置合わせされた画像特徴を使用して、多重解像度の微分可能なマーチング四面体グリッドを共同で最適化することが含まれます。
さらに、異なるビューからの特徴を効率的に統合するための、類似性を意識した特徴融合戦略を提案します。
さらに、SDS 計算の代替として 2 つの新しいトレーニング目標を導入し、最適化プロセスを大幅に強化します。
私たちはフレームワークのパフォーマンスとコンポーネントを徹底的に評価しており、トポロジー的および構造的に正しいジオメトリと高解像度のテクスチャを生成する点で現在の最先端のものを上回っています。
Guide3D を使用すると、2D で生成された画像を 3D 空間に直接転送できます。
私たちのコードは公開されます。
要約(オリジナル)
Recently, text-to-image generation has exhibited remarkable advancements, with the ability to produce visually impressive results. In contrast, text-to-3D generation has not yet reached a comparable level of quality. Existing methods primarily rely on text-guided score distillation sampling (SDS), and they encounter difficulties in transferring 2D attributes of the generated images to 3D content. In this work, we aim to develop an effective 3D generative model capable of synthesizing high-resolution textured meshes by leveraging both textual and image information. To this end, we introduce Guide3D, a zero-shot text-and-image-guided generative model for 3D avatar generation based on diffusion models. Our model involves (1) generating sparse-view images of a text-consistent character using diffusion models, and (2) jointly optimizing multi-resolution differentiable marching tetrahedral grids with pixel-aligned image features. We further propose a similarity-aware feature fusion strategy for efficiently integrating features from different views. Moreover, we introduce two novel training objectives as an alternative to calculating SDS, significantly enhancing the optimization process. We thoroughly evaluate the performance and components of our framework, which outperforms the current state-of-the-art in producing topologically and structurally correct geometry and high-resolution textures. Guide3D enables the direct transfer of 2D-generated images to the 3D space. Our code will be made publicly available.
arxiv情報
著者 | Yukang Cao,Yan-Pei Cao,Kai Han,Ying Shan,Kwan-Yee K. Wong |
発行日 | 2023-08-18 17:55:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google