要約
Virtual Try-ON (VTON) は、特定の衣服を着た特定の人物画像を合成することを目的としており、最近オンライン ショッピングのシナリオで多くの注目を集めています。
現在、VTON タスクの核となる課題は主に、深度推定中の特定の参照衣服のきめ細かい意味論的抽出 (つまり、深い意味論) と、衣服が合成されて人体にワープされる際の効果的なテクスチャ保存にあります。
これらの問題に対処するために、特別なハイブリッド注意学習戦略と深い衣服意味保存モジュールを特徴とするディープテキスト駆動型の仮想試着モデルである DH-VTON を提案します。
この作業では、十分に構築された事前トレーニング済みペイント・バイ・サンプル (略称 PBE) アプローチの肩に立って、DH-VTON パイプラインを紹介します。
具体的には、衣服の深い意味論を抽出するために、まず、詳細な特徴学習器として InternViT-6B を導入します。これは、深いテキスト セマンティクス (「ネックライン」や「ガードル」など) を備えた大規模な固有の知識と一致するようにトレーニングできます。
‘) 一般的に採用されている CLIP エンコーダの欠点を補います。
これに基づいて、カスタマイズされたドレッシング能力を強化するために、Garment-Feature ControlNet Plus (略称 GFC+) モジュールをさらに導入し、衣服のきめ細かい特性を適応的に統合できるトレーニング用の新しいハイブリッド アテンション戦略を活用することを提案します。
VTON モデルのさまざまなレイヤーを使用して、マルチスケールの特徴保持効果を実現します。
いくつかの代表的なデータセットに対する広範な実験により、私たちの方法が以前の拡散ベースおよび GAN ベースのアプローチより優れていることが実証され、衣服の詳細を保存し、本物の人間の画像を生成する点で競争力のあるパフォーマンスを示しています。
要約(オリジナル)
Virtual Try-ON (VTON) aims to synthesis specific person images dressed in given garments, which recently receives numerous attention in online shopping scenarios. Currently, the core challenges of the VTON task mainly lie in the fine-grained semantic extraction (i.e.,deep semantics) of the given reference garments during depth estimation and effective texture preservation when the garments are synthesized and warped onto human body. To cope with these issues, we propose DH-VTON, a deep text-driven virtual try-on model featuring a special hybrid attention learning strategy and deep garment semantic preservation module. By standing on the shoulder of a well-built pre-trained paint-by-example (abbr. PBE) approach, we present our DH-VTON pipeline in this work. Specifically, to extract the deep semantics of the garments, we first introduce InternViT-6B as fine-grained feature learner, which can be trained to align with the large-scale intrinsic knowledge with deep text semantics (e.g.,’neckline’ or ‘girdle’) to make up for the deficiency of the commonly adopted CLIP encoder. Based on this, to enhance the customized dressing abilities, we further introduce Garment-Feature ControlNet Plus (abbr. GFC+) module and propose to leverage a fresh hybrid attention strategy for training, which can adaptively integrate fine-grained characteristics of the garments into the different layers of the VTON model, so as to achieve multi-scale features preservation effects. Extensive experiments on several representative datasets demonstrate that our method outperforms previous diffusion-based and GAN-based approaches, showing competitive performance in preserving garment details and generating authentic human images.
arxiv情報
著者 | Jiabao Wei,Zhiyuan Ma |
発行日 | 2024-10-16 12:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google