FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting

要約

Text-to-image (T2I) 拡散モデルは、テキスト プロンプトが与えられた場合に高品質の画像を生成する優れた機能を実証しています。
ただし、プロンプト画像の位置合わせを確実にすること、つまり、プロンプトのセマンティクスと忠実に一致する画像を生成することは依然として大きな課題です。
最近の研究では、潜在コードを最適化することで忠実性を向上させようとしていますが、潜在コードが配布されなくなり、非現実的な画像が生成される可能性があります。
この論文では、プロンプト画像の位置合わせと生成された画像の信頼性を向上させるために、トークンごとのプロンプトの重みを適応的に調整することに基づく、シンプルでありながら効果的なアプローチである FRAP を提案します。
各トークンの重み係数を適応的に更新するオンライン アルゴリズムを設計します。これは、オブジェクトの存在とオブジェクトと修飾子のペアの結合を促進する統一目的関数を最小化することによって実現されます。
広範な評価を通じて、FRAP は、複雑なデータセットからのプロンプトに対するプロンプト画像の位置合わせが大幅​​に高い画像を生成する一方で、最近の潜在コード最適化手法と比較して平均レイテンシが低く、たとえば、COCO-Subject データセットの D&B よりも 4 秒高速であることを示しました。
さらに、CLIP-IQA-Real メトリクスの視覚的な比較と評価を通じて、FRAP がプロンプト画像の位置合わせを改善するだけでなく、現実的な外観を持つより本物の画像を生成することも示します。
また、FRAP とプロンプト書き換え LLM を組み合わせて、劣化したプロンプト画像の位置合わせを回復することも検討しており、プロンプト画像の位置合わせと画質の両方の改善が観察されています。

要約(オリジナル)

Text-to-image (T2I) diffusion models have demonstrated impressive capabilities in generating high-quality images given a text prompt. However, ensuring the prompt-image alignment remains a considerable challenge, i.e., generating images that faithfully align with the prompt’s semantics. Recent works attempt to improve the faithfulness by optimizing the latent code, which potentially could cause the latent code to go out-of-distribution and thus produce unrealistic images. In this paper, we propose FRAP, a simple, yet effective approach based on adaptively adjusting the per-token prompt weights to improve prompt-image alignment and authenticity of the generated images. We design an online algorithm to adaptively update each token’s weight coefficient, which is achieved by minimizing a unified objective function that encourages object presence and the binding of object-modifier pairs. Through extensive evaluations, we show FRAP generates images with significantly higher prompt-image alignment to prompts from complex datasets, while having a lower average latency compared to recent latent code optimization methods, e.g., 4 seconds faster than D&B on the COCO-Subject dataset. Furthermore, through visual comparisons and evaluation on the CLIP-IQA-Real metric, we show that FRAP not only improves prompt-image alignment but also generates more authentic images with realistic appearances. We also explore combining FRAP with prompt rewriting LLM to recover their degraded prompt-image alignment, where we observe improvements in both prompt-image alignment and image quality.

arxiv情報

著者 Liyao Jiang,Negar Hassanpour,Mohammad Salameh,Mohan Sai Singamsetti,Fengyu Sun,Wei Lu,Di Niu
発行日 2024-08-21 15:30:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク