要約
最新の進歩により、潜在拡散モデルを使用したローカライズされた衣類修復を通じて現実的な仮想試着 (VTON) が実現され、消費者のオンライン ショッピング エクスペリエンスが大幅に向上しました。
しかし、既存の VTON テクノロジーでは、販売者が衣服、オプションの顔、ポーズ、シーンを柔軟に制御するなど、衣服を総合的に紹介する必要性が無視されています。
この問題に対処するために、固定の衣服とオプションの条件を備えた自由に編集可能な人間の画像を生成することに重点を置いた仮想ドレッシング (VD) タスクを定義します。
同時に、生成された画像と参照衣服の間の一貫性を評価するための包括的な類似性指標 (CAMI) を設計します。
次に、CLIP からセマンティック特徴をキャプチャし、VAE からテクスチャ特徴をキャプチャする衣服 UNet を組み込んだ IMAGDressing-v1 を提案します。
我々は、フローズンセルフアテンションとトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提供し、衣服UNetの衣服機能をフローズンノイズ除去UNetに統合し、ユーザーがテキストを通じてさまざまなシーンを制御できるようにします。
IMAGDressing-v1 は、ControlNet や IP-Adapter などの他の拡張プラグインと組み合わせて、生成されるイメージの多様性と制御性を強化できます。
さらに、データ不足に対処するために、300,000 着を超える衣服と服装の画像を含むインタラクティブ ガーメント ペアリング (IGPair) データセットをリリースし、データ アセンブリのための標準パイプラインを確立します。
広範な実験により、当社の IMAGDressing-v1 がさまざまな制御条件下で最先端の人物画像合成パフォーマンスを達成することが実証されました。
コードとモデルは https://github.com/muzishen/IMAGDressing で入手できます。
要約(オリジナル)
Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers’ online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.
arxiv情報
著者 | Fei Shen,Xin Jiang,Xin He,Hu Ye,Cong Wang,Xiaoyu Du,Zechao Li,Jinghui Tang |
発行日 | 2024-07-17 16:26:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google