BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training

要約

画像ベースの仮想試着は、特定の人物のリアルな試着画像を生成するための重要なタスクとしてますます人気が高まっています。
既存の方法では、常に正確なマスクを使用してソース画像内の元の衣服を除去し、強力な拡散モデルに基づいた単純で従来の試着シナリオでリアルな合成画像を実現します。
したがって、これらの方法を試着するには、適切なマスクを入手することが不可欠です。
ただし、特にさまざまな前景オクルージョンや人物のポーズを含む複雑な試着データの場合、正確な修復マスクを取得することは、図 1-上に示すように簡単ではありません。
この困難により、図 1 の下に示す自撮りシーンなど、より実用的で困難な現実のシナリオではパフォーマンスが低下することがよくあります。
この目的を達成するために、私たちは、野生のシナリオから大規模な不対トレーニング データを取得するための効率的なデータ拡張方法と組み合わせた新しいトレーニング パラダイムを提案します。これにより、追加の修復マスクを必要とせずにモデルの試着パフォーマンスが大幅に容易になります。
さらに、試着位置特定ロスは、より正確な試着領域の位置を特定し、より合理的な試着結果が得られるように設計されています。
私たちの方法は、入力として参照布画像、ソースポーズ画像、およびソース人物画像のみを必要とするだけであり、既存の方法と比較してコスト効率が高く、ユーザーフレンドリーであることに注意してください。
広範な定性的および定量的実験により、このような低需要の入力を使用する野生のシナリオで優れたパフォーマンスが実証されました。

要約(オリジナル)

Image-based virtual try-on is an increasingly popular and important task to generate realistic try-on images of specific person. Existing methods always employ an accurate mask to remove the original garment in the source image, thus achieving realistic synthesized images in simple and conventional try-on scenarios based on powerful diffusion model. Therefore, acquiring suitable mask is vital to the try-on performance of these methods. However, obtaining precise inpainting masks, especially for complex wild try-on data containing diverse foreground occlusions and person poses, is not easy as Figure 1-Top shows. This difficulty often results in poor performance in more practical and challenging real-life scenarios, such as the selfie scene shown in Figure 1-Bottom. To this end, we propose a novel training paradigm combined with an efficient data augmentation method to acquire large-scale unpaired training data from wild scenarios, thereby significantly facilitating the try-on performance of our model without the need for additional inpainting masks. Besides, a try-on localization loss is designed to localize a more accurate try-on area to obtain more reasonable try-on results. It is noted that our method only needs the reference cloth image, source pose image and source person image as input, which is more cost-effective and user-friendly compared to existing methods. Extensive qualitative and quantitative experiments have demonstrated superior performance in wild scenarios with such a low-demand input.

arxiv情報

著者 Xuanpu Zhang,Dan Song,Pengxin Zhan,Qingguo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,Anan Liu
発行日 2024-08-12 10:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク