DreamVTON: Customizing 3D Virtual Try-on with Personalized Diffusion Models


画像ベースの 3D 仮想試着 (VTON) は、人物や衣服の画像に従って 3D 人間を彫刻することを目的としています。これはデータ効率が良い (つまり、高価な 3D データを取り除く) ものの、困難です。
最近のテキストから 3D への手法は、高忠実度の 3D 人間生成において顕著な改善を達成しており、3D 仮想試着の可能性を実証しています。
2D VTON のパーソナライズされた拡散モデル (Dreambooth や LoRA など) の目覚ましい成功に触発され、パーソナライゼーション技術を拡散ベースの text-to-3D フレームワークに統合することで 3D VTON を簡単に実現できます。
ただし、事前トレーニングされた拡散モデル (StableDiffusion (SD) など) でパーソナライズされたモジュールを使用すると、モデルのマルチビューまたはマルチドメイン合成の機能が低下し、スコア蒸留サンプリングによって導かれるジオメトリとテクスチャの最適化に悪影響を及ぼします。
(SDS) 損失。
この研究では、\textbf{DreamVTON} という名前の新しいカスタマイズ可能な 3D 人間の試着モデルを提案し、3D 人間のジオメトリとテクスチャを個別に最適化します。
具体的には、マルチコンセプト LoRA を備えたパーソナライズされた SD が、特定の人物や衣服に関する生成的な事前情報を提供するために提案されている一方、Densepose ガイド付き ControlNet を活用して、さまざまなカメラ ビュー全体で体のポーズに関する一貫した事前情報を保証します。
さらに、最適化を支配するパーソナライズされた SD による一貫性のないマルチビュー事前分布を回避するために、DreamVTON はテンプレートベースの最適化メカニズムを導入しています。これは、ジオメトリ形状の学習にはマスク テンプレートを、ジオメトリ/テクスチャの詳細学習には法線/RGB テンプレートを採用します。
さらに、ジオメトリ最適化フェーズでは、DreamVTON は通常スタイルの LoRA をパーソナライズされた SD に統合して、法線マップの事前生成を強化し、スムーズなジオメトリ モデリングを促進します。


Image-based 3D Virtual Try-ON (VTON) aims to sculpt the 3D human according to person and clothes images, which is data-efficient (i.e., getting rid of expensive 3D data) but challenging. Recent text-to-3D methods achieve remarkable improvement in high-fidelity 3D human generation, demonstrating its potential for 3D virtual try-on. Inspired by the impressive success of personalized diffusion models (e.g., Dreambooth and LoRA) for 2D VTON, it is straightforward to achieve 3D VTON by integrating the personalization technique into the diffusion-based text-to-3D framework. However, employing the personalized module in a pre-trained diffusion model (e.g., StableDiffusion (SD)) would degrade the model’s capability for multi-view or multi-domain synthesis, which is detrimental to the geometry and texture optimization guided by Score Distillation Sampling (SDS) loss. In this work, we propose a novel customizing 3D human try-on model, named \textbf{DreamVTON}, to separately optimize the geometry and texture of the 3D human. Specifically, a personalized SD with multi-concept LoRA is proposed to provide the generative prior about the specific person and clothes, while a Densepose-guided ControlNet is exploited to guarantee consistent prior about body pose across various camera views. Besides, to avoid the inconsistent multi-view priors from the personalized SD dominating the optimization, DreamVTON introduces a template-based optimization mechanism, which employs mask templates for geometry shape learning and normal/RGB templates for geometry/texture details learning. Furthermore, for the geometry optimization phase, DreamVTON integrates a normal-style LoRA into personalized SD to enhance normal map generative prior, facilitating smooth geometry modeling.


著者 Zhenyu Xie,Haoye Dong,Yufei Gao,Zehua Ma,Xiaodan Liang
発行日 2024-07-23 14:25:28+00:00
arxivサイト arxiv_id(pdf)

