LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

要約

急速に進化するeコマースやメタバース分野では、消費者体験を向上させる革新的なアプローチが模索され続けている。同時に、拡散モデルの開発における最近の進歩は、生成ネットワークが驚くほどリアルな画像を作成することを可能にしている。このような状況において、画像ベースのバーチャル試着は、ターゲットモデルが店頭で所定の衣服を着用している斬新な画像を生成することから構成されるが、これらの強力な生成ソリューションの可能性を活用するには至っていない。本研究では、バーチャル試着タスクのための初の潜在拡散テキスト反転強化モデルであるLADI-VTONを紹介する。提案するアーキテクチャは、学習可能なスキップ接続を利用する新規な追加オートエンコーダーモジュールで拡張された潜在拡散モデルに依存しており、モデルの特徴を維持したまま生成プロセスを強化する。インショップの衣服の質感とディテールを効果的に維持するために、衣服の視覚的特徴をCLIPトークン埋め込み空間にマッピングし、生成プロセスを条件付けることができる擬似ワードトークン埋め込みセットを生成することができる、テキスト反転コンポーネントを提案する。Dress CodeとVITON-HDデータセットでの実験結果は、我々のアプローチが競合他社を一貫したマージンで上回り、タスクの重要なマイルストーンを達成したことを示している。ソースコードと学習済みモデルは、https://github.com/miccunifi/ladi-vton で公開されている。

要約(オリジナル)

The rapidly evolving fields of e-commerce and metaverse continue to seek innovative approaches to enhance the consumer experience. At the same time, recent advancements in the development of diffusion models have enabled generative networks to create remarkably realistic images. In this context, image-based virtual try-on, which consists in generating a novel image of a target model wearing a given in-shop garment, has yet to capitalize on the potential of these powerful generative solutions. This work introduces LaDI-VTON, the first Latent Diffusion textual Inversion-enhanced model for the Virtual Try-ON task. The proposed architecture relies on a latent diffusion model extended with a novel additional autoencoder module that exploits learnable skip connections to enhance the generation process preserving the model’s characteristics. To effectively maintain the texture and details of the in-shop garment, we propose a textual inversion component that can map the visual features of the garment to the CLIP token embedding space and thus generate a set of pseudo-word token embeddings capable of conditioning the generation process. Experimental results on Dress Code and VITON-HD datasets demonstrate that our approach outperforms the competitors by a consistent margin, achieving a significant milestone for the task. Source code and trained models are publicly available at: https://github.com/miccunifi/ladi-vton.

arxiv情報

著者 Davide Morelli,Alberto Baldrati,Giuseppe Cartella,Marcella Cornia,Marco Bertini,Rita Cucchiara
発行日 2023-08-03 13:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク