WarpDiffusion: Efficient Diffusion Model for High-Fidelity Virtual Try-on

要約

Image-based Virtual Try-On (VITON) は、店内の衣服の画像を対象者に転送することを目的としています。
既存の方法は、体のポーズに合わせて衣服を歪ませることに重点を置いていますが、衣服と皮膚の境界付近の合成品質や、歪んだ衣服のシワや影などのリアルな効果を見落とすことがよくあります。
これらの制限により、生成された結果の現実性が大幅に低下し、VITON 技術の実用化が妨げられます。
クロスモーダル画像合成における拡散ベースのモデルの顕著な成功を利用して、最近のいくつかの拡散ベースの手法は、この問題への取り組みに挑戦しています。
ただし、大量のトレーニング リソースを消費するか、現実的な試着効果を達成して衣服の詳細を維持するのに苦労する傾向があります。
効率的で忠実度の高い VITON を実現するために、私たちは WarpDiffusion を提案します。これは、新しい有益なローカル衣服特徴アテンション メカニズムを介して、ワーピング ベースと拡散ベースのパラダイムを橋渡しします。
具体的には、WarpDiffusion には、リソース消費を削減するためにローカル テクスチャ アテンションが組み込まれており、非現実的または誤った部分を無視しながら、ワープされた衣服の重要な領域のみを効果的に保持する新しい自動マスク モジュールが使用されます。
特に、WarpDiffusion はプラグアンドプレイ コンポーネントとして既存の VITON 手法に統合でき、合成品質を向上させます。
高解像度 VITON ベンチマークと実際のテスト セットでの広範な実験により、WarpDiffusion の優位性が実証され、定性的および定量的の両方で最先端の手法を上回っています。

要約(オリジナル)

Image-based Virtual Try-On (VITON) aims to transfer an in-shop garment image onto a target person. While existing methods focus on warping the garment to fit the body pose, they often overlook the synthesis quality around the garment-skin boundary and realistic effects like wrinkles and shadows on the warped garments. These limitations greatly reduce the realism of the generated results and hinder the practical application of VITON techniques. Leveraging the notable success of diffusion-based models in cross-modal image synthesis, some recent diffusion-based methods have ventured to tackle this issue. However, they tend to either consume a significant amount of training resources or struggle to achieve realistic try-on effects and retain garment details. For efficient and high-fidelity VITON, we propose WarpDiffusion, which bridges the warping-based and diffusion-based paradigms via a novel informative and local garment feature attention mechanism. Specifically, WarpDiffusion incorporates local texture attention to reduce resource consumption and uses a novel auto-mask module that effectively retains only the critical areas of the warped garment while disregarding unrealistic or erroneous portions. Notably, WarpDiffusion can be integrated as a plug-and-play component into existing VITON methodologies, elevating their synthesis quality. Extensive experiments on high-resolution VITON benchmarks and an in-the-wild test set demonstrate the superiority of WarpDiffusion, surpassing state-of-the-art methods both qualitatively and quantitatively.

arxiv情報

著者 xujie zhang,Xiu Li,Michael Kampffmeyer,Xin Dong,Zhenyu Xie,Feida Zhu,Haoye Dong,Xiaodan Liang
発行日 2023-12-06 18:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク