要約
拡散モデルは、数多くの画像合成タスクにおける生成モデリングに革命をもたらしました。
それにもかかわらず、特定の店内の衣類を着ている対象者の画像を合成するために拡散モデルを直接適用すること、つまり画像ベースの仮想試着(VTON)タスクは簡単ではありません。
この難しさは、拡散プロセスが対象人物の全体的に忠実度の高いフォトリアリスティックな画像を生成するだけでなく、特定の衣服のすべての外観と質感の詳細を局所的に保存する必要があるという側面から生じています。
これに対処するために、新しい拡散モデル、つまり GarDiff を作成します。これは、特定の衣服から得られる基本的な外観と詳細なテクスチャ (つまり、高周波の詳細) の両方の増幅されたガイダンスを使用して、衣服に焦点を当てた拡散プロセスをトリガーします。
GarDiff はまず、参照衣服の CLIP および VAE エンコーディングから派生した追加の外観事前分布を使用して、事前トレーニングされた潜在拡散モデルを再成形します。
一方、衣服に焦点を当てた新しいアダプターが拡散モデルの UNet に統合され、参照衣服の視覚的外観と人間のポーズとの局所的なきめの細かい位置合わせが追求されます。
私たちは、重要な高周波のディテールを強調するために、合成された衣服の外観の損失を特別に設計します。
VITON-HD および DressCode データセットに関する広範な実験により、最先端の VTON アプローチと比較した場合の GarDiff の優位性が実証されています。
コードは \href{https://github.com/siqi0905/GarDiff/tree/master}{https://github.com/siqi0905/GarDiff/tree/master} で公開されています。
要約(オリジナル)
Diffusion models have led to the revolutionizing of generative modeling in numerous image synthesis tasks. Nevertheless, it is not trivial to directly apply diffusion models for synthesizing an image of a target person wearing a given in-shop garment, i.e., image-based virtual try-on (VTON) task. The difficulty originates from the aspect that the diffusion process should not only produce holistically high-fidelity photorealistic image of the target person, but also locally preserve every appearance and texture detail of the given garment. To address this, we shape a new Diffusion model, namely GarDiff, which triggers the garment-focused diffusion process with amplified guidance of both basic visual appearance and detailed textures (i.e., high-frequency details) derived from the given garment. GarDiff first remoulds a pre-trained latent diffusion model with additional appearance priors derived from the CLIP and VAE encodings of the reference garment. Meanwhile, a novel garment-focused adapter is integrated into the UNet of diffusion model, pursuing local fine-grained alignment with the visual appearance of reference garment and human pose. We specifically design an appearance loss over the synthesized garment to enhance the crucial, high-frequency details. Extensive experiments on VITON-HD and DressCode datasets demonstrate the superiority of our GarDiff when compared to state-of-the-art VTON approaches. Code is publicly available at: \href{https://github.com/siqi0905/GarDiff/tree/master}{https://github.com/siqi0905/GarDiff/tree/master}.
arxiv情報
著者 | Siqi Wan,Yehao Li,Jingwen Chen,Yingwei Pan,Ting Yao,Yang Cao,Tao Mei |
発行日 | 2024-09-12 17:55:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google