Improving Virtual Try-On with Garment-focused Diffusion Models


これに対処するために、新しい拡散モデル、つまり GarDiff を作成します。これは、特定の衣服から得られる基本的な外観と詳細なテクスチャ (つまり、高周波の詳細) の両方の増幅されたガイダンスを使用して、衣服に焦点を当てた拡散プロセスをトリガーします。
GarDiff はまず、参照衣服の CLIP および VAE エンコーディングから派生した追加の外観事前分布を使用して、事前トレーニングされた潜在拡散モデルを再成形します。
一方、衣服に焦点を当てた新しいアダプターが拡散モデルの UNet に統合され、参照衣服の視覚的外観と人間のポーズとの局所的なきめの細かい位置合わせが追求されます。
VITON-HD および DressCode データセットに関する広範な実験により、最先端の VTON アプローチと比較した場合の GarDiff の優位性が実証されています。
コードは \href{}{} で公開されています。


Diffusion models have led to the revolutionizing of generative modeling in numerous image synthesis tasks. Nevertheless, it is not trivial to directly apply diffusion models for synthesizing an image of a target person wearing a given in-shop garment, i.e., image-based virtual try-on (VTON) task. The difficulty originates from the aspect that the diffusion process should not only produce holistically high-fidelity photorealistic image of the target person, but also locally preserve every appearance and texture detail of the given garment. To address this, we shape a new Diffusion model, namely GarDiff, which triggers the garment-focused diffusion process with amplified guidance of both basic visual appearance and detailed textures (i.e., high-frequency details) derived from the given garment. GarDiff first remoulds a pre-trained latent diffusion model with additional appearance priors derived from the CLIP and VAE encodings of the reference garment. Meanwhile, a novel garment-focused adapter is integrated into the UNet of diffusion model, pursuing local fine-grained alignment with the visual appearance of reference garment and human pose. We specifically design an appearance loss over the synthesized garment to enhance the crucial, high-frequency details. Extensive experiments on VITON-HD and DressCode datasets demonstrate the superiority of our GarDiff when compared to state-of-the-art VTON approaches. Code is publicly available at: \href{}{}.


著者 Siqi Wan,Yehao Li,Jingwen Chen,Yingwei Pan,Ting Yao,Yang Cao,Tao Mei
発行日 2024-09-12 17:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.MM パーマリンク