DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder

要約

テキストまたは画像プロンプトから衣服を中心とした人間を生成するための拡散モデルは、その大きな応用可能性により新たな注目を集めています。
ただし、既存の方法はジレンマに直面することがよくあります。アダプターなどの軽量アプローチは一貫性のないテクスチャを生成する傾向があります。
一方、微調整ベースの手法では、トレーニング コストが高く、事前トレーニングされた拡散モデルの汎化機能を維持するのが難しく、さまざまなシナリオにわたってパフォーマンスが制限されます。
これらの課題に対処するために、私たちは DreamFit を提案します。DreamFit には、特に衣服中心の世代向けに調整された軽量の Anything-Dressing エンコーダーが組み込まれています。
DreamFit には 3 つの重要な利点があります: (1) \textbf{軽量トレーニング}: 提案された適応型アテンションと LoRA モジュールにより、DreamFit はモデルの複雑さを大幅に最小限に抑え、8,340 万のトレーニング可能なパラメーターを実現します。
(2)\textbf{Anything-Dressing}: 私たちのモデルは、幅広い (非) 衣服、創造的なスタイル、迅速な指示に驚くほどよく一般化し、さまざまなシナリオにわたって一貫して高品質の結果を提供します。
(3) \textbf{プラグアンドプレイ}: DreamFit は、拡散モデル用のコミュニティ制御プラグインとスムーズに統合できるように設計されており、簡単な互換性を確保し、導入の障壁を最小限に抑えます。
生成品質をさらに高めるために、DreamFit は事前トレーニング済みの大規模マルチモーダル モデル (LMM) を活用して、きめ細かい衣服の説明でプロンプトを強化し、それによってトレーニングと推論の間のプロンプトのギャップを削減します。
当社では、768 ドル x 512 ドルの高解像度ベンチマークと実際の画像の両方で包括的な実験を実施しています。
DreamFit は既存のすべての方法を上回り、衣類中心の人間生成の最先端の機能を強調しています。

要約(オリジナル)

Diffusion models for garment-centric human generation from text or image prompts have garnered emerging attention for their great application potential. However, existing methods often face a dilemma: lightweight approaches, such as adapters, are prone to generate inconsistent textures; while finetune-based methods involve high training costs and struggle to maintain the generalization capabilities of pretrained diffusion models, limiting their performance across diverse scenarios. To address these challenges, we propose DreamFit, which incorporates a lightweight Anything-Dressing Encoder specifically tailored for the garment-centric human generation. DreamFit has three key advantages: (1) \textbf{Lightweight training}: with the proposed adaptive attention and LoRA modules, DreamFit significantly minimizes the model complexity to 83.4M trainable parameters. (2)\textbf{Anything-Dressing}: Our model generalizes surprisingly well to a wide range of (non-)garments, creative styles, and prompt instructions, consistently delivering high-quality results across diverse scenarios. (3) \textbf{Plug-and-play}: DreamFit is engineered for smooth integration with any community control plugins for diffusion models, ensuring easy compatibility and minimizing adoption barriers. To further enhance generation quality, DreamFit leverages pretrained large multi-modal models (LMMs) to enrich the prompt with fine-grained garment descriptions, thereby reducing the prompt gap between training and inference. We conduct comprehensive experiments on both $768 \times 512$ high-resolution benchmarks and in-the-wild images. DreamFit surpasses all existing methods, highlighting its state-of-the-art capabilities of garment-centric human generation.

arxiv情報

著者 Ente Lin,Xujie Zhang,Fuwei Zhao,Yuxuan Luo,Xin Dong,Long Zeng,Xiaodan Liang
発行日 2024-12-23 15:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク