MV-VTON: Multi-View Virtual Try-On with Diffusion Models

要約

画像ベースのバーチャル試着の目的は、対象者が与えられた服を自然に着ているイメージを生成することです。
しかし、既存の方法のほとんどは、衣服を正面から使用して試着することにのみ焦点を当てています。
衣服と人物の視点が著しく矛盾している場合、特に人物の視点が正面からではない場合、結果は満足のいくものではありません。
この課題に対処するために、私たちはマルチビュー仮想試着 (MV-VTON) を導入します。これは、与えられた衣服を使用して、複数の視点から人の着こなし結果を再構築することを目的としています。
一方で、衣服の単一ビューでは MV-VTON の情報が不十分であることを考慮して、衣服の正面図と背面図の 2 つの画像を代わりに使用して、可能な限り完全なビューを網羅します。
一方、MV-VTONには優れた能力を発揮した普及モデルが採用されています。
特に、ハード選択とソフト選択をそれぞれグローバルとローカルの服装特徴抽出に適用するビュー適応型選択方法を提案します。
これにより、衣服の特徴が人の視点にほぼ適合することが保証されます。
続いて、衣服の特徴と人物の特徴を調整して融合するための共同注意ブロックを提案します。
さらに、MV-VTON データセット、つまりマルチビュー ガーメント (MVG) を収集します。このデータセットには、各人がさまざまな視点やポーズをとった複数の写真が含まれています。
実験の結果、提案された方法は、MVG データセットを使用した MV-VTON タスクで最先端の結果を達成するだけでなく、VITON-HD および DressCode データセットを使用した正面視仮想試着タスクでも優れていることがわかりました。
コードとデータセットは https://github.com/hywang2002/MV-VTON で公開されます。

要約(オリジナル)

The goal of image-based virtual try-on is to generate an image of the target person naturally wearing the given clothing. However, most existing methods solely focus on the frontal try-on using the frontal clothing. When the views of the clothing and person are significantly inconsistent, particularly when the person’s view is non-frontal, the results are unsatisfactory. To address this challenge, we introduce Multi-View Virtual Try-ON (MV-VTON), which aims to reconstruct the dressing results of a person from multiple views using the given clothes. On the one hand, given that single-view clothes provide insufficient information for MV-VTON, we instead employ two images, i.e., the frontal and back views of the clothing, to encompass the complete view as much as possible. On the other hand, the diffusion models that have demonstrated superior abilities are adopted to perform our MV-VTON. In particular, we propose a view-adaptive selection method where hard-selection and soft-selection are applied to the global and local clothing feature extraction, respectively. This ensures that the clothing features are roughly fit to the person’s view. Subsequently, we suggest a joint attention block to align and fuse clothing features with person features. Additionally, we collect a MV-VTON dataset, i.e., Multi-View Garment (MVG), in which each person has multiple photos with diverse views and poses. Experiments show that the proposed method not only achieves state-of-the-art results on MV-VTON task using our MVG dataset, but also has superiority on frontal-view virtual try-on task using VITON-HD and DressCode datasets. Codes and datasets will be publicly released at https://github.com/hywang2002/MV-VTON .

arxiv情報

著者 Haoyu Wang,Zhilu Zhang,Donglin Di,Shiliang Zhang,Wangmeng Zuo
発行日 2024-04-26 12:27:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク