Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

要約

Text-to-Image (T2I) 手法による高品質の人物画像の生成は、重要ではあるものの、困難な作業です。
一般的な画像生成とは異なり、人物画像の合成は人物のポーズ、解剖学的構造、およびテキスト プロンプトとの位置合わせに関する厳しい基準を満たす必要があるため、現実的な結果を達成することが特に困難になります。
拡散モデルに基づく T2I 生成の最近の進歩は有望であることが示されていますが、人間特有の好みを満たすには依然として課題が残っています。
この論文では、直接優先最適化 (DPO) を利用した人物画像の生成に特化した新しいアプローチを紹介します。
具体的には、コストのかかる人間によるフィードバックを必要とせずに、人物画像生成モデルをトレーニングするための特殊な DPO データセットを構築する効率的な方法を紹介します。
また、アーティファクトを最小限に抑え、画像の忠実性を向上させることで DPO トレーニング プロセスを強化する、修正された損失関数も提案します。
私たちの方法は、パーソナライズされたテキストから画像への生成など、人間の画像を生成する際の多用途性と有効性を実証しています。
総合的な評価を通じて、私たちのアプローチが人間の画像生成の状態を大幅に進歩させ、自然の解剖学的構造、ポーズ、テキストと画像の位置合わせの点で優れた結果を達成することを示します。

要約(オリジナル)

The generation of high-quality human images through text-to-image (T2I) methods is a significant yet challenging task. Distinct from general image generation, human image synthesis must satisfy stringent criteria related to human pose, anatomy, and alignment with textual prompts, making it particularly difficult to achieve realistic results. Recent advancements in T2I generation based on diffusion models have shown promise, yet challenges remain in meeting human-specific preferences. In this paper, we introduce a novel approach tailored specifically for human image generation utilizing Direct Preference Optimization (DPO). Specifically, we introduce an efficient method for constructing a specialized DPO dataset for training human image generation models without the need for costly human feedback. We also propose a modified loss function that enhances the DPO training process by minimizing artifacts and improving image fidelity. Our method demonstrates its versatility and effectiveness in generating human images, including personalized text-to-image generation. Through comprehensive evaluations, we show that our approach significantly advances the state of human image generation, achieving superior results in terms of natural anatomies, poses, and text-image alignment.

arxiv情報

著者 Sanghyeon Na,Yonggyu Kim,Hyunjoon Lee
発行日 2024-05-30 16:18:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク