要約
印象的な生成パフォーマンスにもかかわらず、潜在拡散モデルベースの仮想試着 (VTON) 手法は、スタイル、パターン、テキストなどの衣服の重要な詳細に対する忠実さに欠けています。
拡散の確率的性質と潜在的な監視によって引き起こされるこれらの問題を軽減するために、我々は FLDM-VTON と呼ばれる VTON の新しい忠実な潜在拡散モデルを提案します。
FLDM-VTON は、従来の潜在拡散プロセスを 3 つの主要な側面で改善します。
まず、歪んだ衣服を開始点と局所条件の両方として組み込み、モデルに忠実な衣服の事前分布を提供することを提案します。
次に、生成された試着画像を制約する新しい衣服平坦化ネットワークを導入し、衣服に一貫性のある忠実な監視を提供します。
第三に、忠実な推論のために衣服事後サンプリングを考案し、従来の衣服に依存しないガウス サンプリングよりもモデルのパフォーマンスをさらに向上させます。
ベンチマークの VITON-HD およびドレス コード データセットに関する広範な実験結果は、当社の FLDM-VTON が最先端のベースラインを上回っており、忠実な衣服の詳細を含む写真のようにリアルな試着画像を生成できることを示しています。
要約(オリジナル)
Despite their impressive generative performance, latent diffusion model-based virtual try-on (VTON) methods lack faithfulness to crucial details of the clothes, such as style, pattern, and text. To alleviate these issues caused by the diffusion stochastic nature and latent supervision, we propose a novel Faithful Latent Diffusion Model for VTON, termed FLDM-VTON. FLDM-VTON improves the conventional latent diffusion process in three major aspects. First, we propose incorporating warped clothes as both the starting point and local condition, supplying the model with faithful clothes priors. Second, we introduce a novel clothes flattening network to constrain generated try-on images, providing clothes-consistent faithful supervision. Third, we devise a clothes-posterior sampling for faithful inference, further enhancing the model performance over conventional clothes-agnostic Gaussian sampling. Extensive experimental results on the benchmark VITON-HD and Dress Code datasets demonstrate that our FLDM-VTON outperforms state-of-the-art baselines and is able to generate photo-realistic try-on images with faithful clothing details.
arxiv情報
著者 | Chenhui Wang,Tao Chen,Zhihao Chen,Zhizhong Huang,Taoran Jiang,Qi Wang,Hongming Shan |
発行日 | 2024-04-22 13:21:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google