3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models

要約

テキスト駆動のスタイル化による 3D コンテンツの作成は、マルチメディアおよびグラフィックスのコミュニティにとって根本的な課題となっています。
最近のクロスモーダル基礎モデル (CLIP など) の進歩により、この問題は実現可能になりました。
これらのアプローチは通常、CLIP を利用して、定型化されたメッシュの全体的なセマンティクスを指定されたテキスト プロンプトと調整します。
それにもかかわらず、そのようなセマンティックレベルのクロスモーダル監視のみに基づいて、3D メッシュのきめの細かい詳細のより制御可能なスタイル化を可能にすることは簡単ではありません。
この研究では、2D 拡散モデルからの制御可能な外観と幾何学的なガイダンスを追加して、3D メッシュのきめ細かい様式化をトリガーする新しい 3DStyle-Diffusion モデルを提案します。
技術的には、3DStyle-Diffusion はまず、暗黙的な MLP ネットワークを使用して、3D メッシュのテクスチャを反射率プロパティとシーン照明にパラメータ化します。
一方、サンプリングされた各ビューの正確な深度マップは、3D メッシュに基づいて実現されます。
次に、3DStyle-Diffusion は、事前トレーニングされた制御可能な 2D 拡散モデルを活用して、レンダリングされたイメージの学習をガイドし、テキスト プロンプトと意味的に整合し、深度マップと幾何学的に一貫した各ビューの合成イメージを促進します。
この方法では、暗黙的な MLP ネットワークを介した画像レンダリングと画像合成の拡散プロセスの両方がエンドツーエンド方式でエレガントに統合され、高品質できめ細かい 3D メッシュの様式化が可能になります。
また、Objaverse から派生した新しいデータセットと、このタスクの評価プロトコルも構築します。
定性的および定量的実験の両方を通じて、3DStyle-Diffusion の機能を検証します。
ソース コードとデータは \url{https://github.com/yanghb22-fdu/3DStyle-Diffusion-Official} で入手できます。

要約(オリジナル)

3D content creation via text-driven stylization has played a fundamental challenge to multimedia and graphics community. Recent advances of cross-modal foundation models (e.g., CLIP) have made this problem feasible. Those approaches commonly leverage CLIP to align the holistic semantics of stylized mesh with the given text prompt. Nevertheless, it is not trivial to enable more controllable stylization of fine-grained details in 3D meshes solely based on such semantic-level cross-modal supervision. In this work, we propose a new 3DStyle-Diffusion model that triggers fine-grained stylization of 3D meshes with additional controllable appearance and geometric guidance from 2D Diffusion models. Technically, 3DStyle-Diffusion first parameterizes the texture of 3D mesh into reflectance properties and scene lighting using implicit MLP networks. Meanwhile, an accurate depth map of each sampled view is achieved conditioned on 3D mesh. Then, 3DStyle-Diffusion leverages a pre-trained controllable 2D Diffusion model to guide the learning of rendered images, encouraging the synthesized image of each view semantically aligned with text prompt and geometrically consistent with depth map. This way elegantly integrates both image rendering via implicit MLP networks and diffusion process of image synthesis in an end-to-end fashion, enabling a high-quality fine-grained stylization of 3D meshes. We also build a new dataset derived from Objaverse and the evaluation protocol for this task. Through both qualitative and quantitative experiments, we validate the capability of our 3DStyle-Diffusion. Source code and data are available at \url{https://github.com/yanghb22-fdu/3DStyle-Diffusion-Official}.

arxiv情報

著者 Haibo Yang,Yang Chen,Yingwei Pan,Ting Yao,Zhineng Chen,Tao Mei
発行日 2023-11-09 15:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク