MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input

要約

Virtual Try-On(VITON)の最近の進歩により、強力なテキストからイメージ(T2I)拡散モデルによって駆動される画像リアリズムと衣服の詳細保存が大幅に改善されました。
ただし、既存の方法は、多くの場合、ユーザーが提供するマスクに依存しており、図1(a)に示すように、不完全な入力による複雑さとパフォーマンスの劣化をもたらします。
これに対処するために、1人の画像とターゲットガーメントのみを使用してリアルなVitonを達成するマスクフリービトン(MF-Viton)フレームワークを提案し、補助マスクの要件を排除します。
このアプローチでは、新しい2段階のパイプラインを紹介します。(1)既存のマスクベースのVitonモデルを活用して、高品質のデータセットを合成します。
このデータセットには、現実世界のシナリオを模倣するためにさまざまな背景で補強された、多様で現実的な人の画像と対応する衣服が含まれています。
(2)事前に訓練されたマスクベースのモデルは、生成されたデータセットで微調整されており、マスクの依存関係なしで衣服の転送を可能にします。
この段階は、衣服のテクスチャーを保存しながら、忠実度を維持しながら、入力要件を簡素化します。
私たちのフレームワークは、衣服移動の精度と視覚的リアリズムに関する最先端の(SOTA)パフォーマンスを実現します。
特に、提案されたマスクフリーモデルは、既存のマスクベースのアプローチを大幅に上回り、新しいベンチマークを設定し、以前のアプローチよりも大きなリードを示します。
詳細については、プロジェクトページをご覧ください:https://zhenchenwan.github.io/mf-viton/。

要約(オリジナル)

Recent advancements in Virtual Try-On (VITON) have significantly improved image realism and garment detail preservation, driven by powerful text-to-image (T2I) diffusion models. However, existing methods often rely on user-provided masks, introducing complexity and performance degradation due to imperfect inputs, as shown in Fig.1(a). To address this, we propose a Mask-Free VITON (MF-VITON) framework that achieves realistic VITON using only a single person image and a target garment, eliminating the requirement for auxiliary masks. Our approach introduces a novel two-stage pipeline: (1) We leverage existing Mask-based VITON models to synthesize a high-quality dataset. This dataset contains diverse, realistic pairs of person images and corresponding garments, augmented with varied backgrounds to mimic real-world scenarios. (2) The pre-trained Mask-based model is fine-tuned on the generated dataset, enabling garment transfer without mask dependencies. This stage simplifies the input requirements while preserving garment texture and shape fidelity. Our framework achieves state-of-the-art (SOTA) performance regarding garment transfer accuracy and visual realism. Notably, the proposed Mask-Free model significantly outperforms existing Mask-based approaches, setting a new benchmark and demonstrating a substantial lead over previous approaches. For more details, visit our project page: https://zhenchenwan.github.io/MF-VITON/.

arxiv情報

著者 Zhenchen Wan,Yanwu xu,Dongting Hu,Weilun Cheng,Tianxi Chen,Zhaoqing Wang,Feng Liu,Tongliang Liu,Mingming Gong
発行日 2025-03-11 17:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク