Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

要約

拡散モデルは、Virtual Try-On(VTON)タスクで予備的な成功を示しています。
典型的なデュアルブランチアーキテクチャは、それぞれ暗黙の衣服の変形と合成された画像生成のための2つのUNETで構成されており、VTONタスクのレシピとして登場しています。
それにもかかわらず、この問題は、拡散モデルの固有の確率のために、与えられた衣服の形状と細部を維持するのに困難なままです。
この問題を緩和するために、私たちは、外観参照として衣服全体をUNETに単純に供給するのではなく、拡散プロセスの前に視覚的対応を明示的に資本化することを新たに提案します。
具体的には、細かい外観とテクスチャの詳細を構造化されたセマンティックポイントのセットとして解釈し、衣服に根ざしたセマンティックポイントを、ローカルフローワーピングを通じてターゲットの人に一致させます。
そのような2Dポイントは、ターゲットパーソンの深さ/通常のマップを使用して、3Dにアウェアのキューに増強されます。
対応は、人体に衣服を置く方法を模倣しており、3Dに目覚める手がかりは、拡散モデルトレーニングを監督するためのセマンティックポイントマッチングとして機能します。
セマンティックポイントマッチングを完全に活用するために、ポイントに焦点を当てた拡散損失がさらに考案されます。
広範な実験は、Viton-HDデータセットとドレスコードデータセットの両方で最先端のVTONパフォーマンスによって証明される、私たちのアプローチの強力な衣服の詳細保存を示しています。
コードは、https://github.com/hidream-ai/spm-diffで公開されています。

要約(オリジナル)

Diffusion models have shown preliminary success in virtual try-on (VTON) task. The typical dual-branch architecture comprises two UNets for implicit garment deformation and synthesized image generation respectively, and has emerged as the recipe for VTON task. Nevertheless, the problem remains challenging to preserve the shape and every detail of the given garment due to the intrinsic stochasticity of diffusion model. To alleviate this issue, we novelly propose to explicitly capitalize on visual correspondence as the prior to tame diffusion process instead of simply feeding the whole garment into UNet as the appearance reference. Specifically, we interpret the fine-grained appearance and texture details as a set of structured semantic points, and match the semantic points rooted in garment to the ones over target person through local flow warping. Such 2D points are then augmented into 3D-aware cues with depth/normal map of target person. The correspondence mimics the way of putting clothing on human body and the 3D-aware cues act as semantic point matching to supervise diffusion model training. A point-focused diffusion loss is further devised to fully take the advantage of semantic point matching. Extensive experiments demonstrate strong garment detail preservation of our approach, evidenced by state-of-the-art VTON performances on both VITON-HD and DressCode datasets. Code is publicly available at: https://github.com/HiDream-ai/SPM-Diff.

arxiv情報

著者 Siqi Wan,Jingwen Chen,Yingwei Pan,Ting Yao,Tao Mei
発行日 2025-05-22 17:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク