要約
バニラのテキストから画像への拡散モデルは、正確な人間の画像を生成するのに苦労しており、その結果、不自然な姿勢や不釣り合いな手足などの不完全な解剖学的構造が生じることがよくあります。既存の方法では、主に追加の画像を使用してモデルを微調整するか、追加のコントロールを追加することでこの問題に対処しています。
– ポーズや深度マップなどの中心的な事前情報 — 画像生成フェーズ中。
この論文では、これらの人間中心の事前分布をモデルの微調整段階に直接統合することを検討し、推論段階での追加の条件の必要性を本質的に排除します。
私たちは、クロスアテンションマップ内のテキストプロンプトからの人間関連情報を強化するために、人間中心のアライメント損失を提案することでこのアイデアを実現します。
微調整中にセマンティックな詳細の豊富さと人間の構造の正確さを確保するために、クロスアテンション層の詳細な分析に従って、拡散プロセス内にスケールを意識した段階的な制約を導入します。
広範な実験により、私たちの方法は最先端のテキストから画像へのモデルよりも大幅に改善され、ユーザーが作成したプロンプトに基づいて高品質の人物画像を合成できることがわかりました。
プロジェクト ページ: \url{https://hcplayercvpr2024.github.io}。
要約(オリジナル)
Vanilla text-to-image diffusion models struggle with generating accurate human images, commonly resulting in imperfect anatomies such as unnatural postures or disproportionate limbs.Existing methods address this issue mostly by fine-tuning the model with extra images or adding additional controls — human-centric priors such as pose or depth maps — during the image generation phase. This paper explores the integration of these human-centric priors directly into the model fine-tuning stage, essentially eliminating the need for extra conditions at the inference stage. We realize this idea by proposing a human-centric alignment loss to strengthen human-related information from the textual prompts within the cross-attention maps. To ensure semantic detail richness and human structural accuracy during fine-tuning, we introduce scale-aware and step-wise constraints within the diffusion process, according to an in-depth analysis of the cross-attention layer. Extensive experiments show that our method largely improves over state-of-the-art text-to-image models to synthesize high-quality human images based on user-written prompts. Project page: \url{https://hcplayercvpr2024.github.io}.
arxiv情報
著者 | Junyan Wang,Zhenhong Sun,Zhiyu Tan,Xuanbai Chen,Weihua Chen,Hao Li,Cheng Zhang,Yang Song |
発行日 | 2024-03-08 11:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google