Multi-Garment Customized Model Generation

要約

この論文では、複数の衣類を自由に組み合わせて画像を合成するという未踏のタスクに対処することを目的とした、潜在拡散モデル (LDM) に基づく統一フレームワークであるマルチ衣類カスタマイズ モデル生成について紹介します。
この方法は、さまざまなテキスト プロンプトに従って、さまざまなターゲットの衣装を着たカスタマイズされたモデルを生成することに重点を置いています。
主な課題は、各衣服の複雑な質感を維持しながら、服を着たモデルの自然な外観を維持し、異なる衣服からの情報が相互に干渉しないようにすることにあります。
これらの課題に取り組むために、私たちはまず、衣服の詳細な特徴を並行して抽出できる、共有重みを備えたトレーニング可能な UNet コピーである衣服エンコーダを開発しました。
次に、私たちのフレームワークは、分離された複数の衣服の特徴融合を通じて複数の衣服の条件付き生成をサポートし、複数の衣服の特徴をバックボーン ネットワークに注入できるようにして、衣服情報間の競合を大幅に軽減します。
さらに、提案されたガーメント エンコーダは、IP アダプターや ControlNet などの他の拡張モジュールと組み合わせることができるプラグ アンド プレイ モジュールであり、生成されるモデルの多様性と制御性を強化します。
広範な実験により、既存の代替案に対する当社のアプローチの優位性が実証され、複数の衣類の組み合わせで画像を生成するタスクに新たな道が開かれました。

要約(オリジナル)

This paper introduces Multi-Garment Customized Model Generation, a unified framework based on Latent Diffusion Models (LDMs) aimed at addressing the unexplored task of synthesizing images with free combinations of multiple pieces of clothing. The method focuses on generating customized models wearing various targeted outfits according to different text prompts. The primary challenge lies in maintaining the natural appearance of the dressed model while preserving the complex textures of each piece of clothing, ensuring that the information from different garments does not interfere with each other. To tackle these challenges, we first developed a garment encoder, which is a trainable UNet copy with shared weights, capable of extracting detailed features of garments in parallel. Secondly, our framework supports the conditional generation of multiple garments through decoupled multi-garment feature fusion, allowing multiple clothing features to be injected into the backbone network, significantly alleviating conflicts between garment information. Additionally, the proposed garment encoder is a plug-and-play module that can be combined with other extension modules such as IP-Adapter and ControlNet, enhancing the diversity and controllability of the generated models. Extensive experiments demonstrate the superiority of our approach over existing alternatives, opening up new avenues for the task of generating images with multiple-piece clothing combinations

arxiv情報

著者 Yichen Liu,Penghui Du,Yi Liu Quanwei Zhang
発行日 2024-08-09 17:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク