Improving Text-to-Image Consistency via Automatic Prompt Optimization


テキストから画像への (T2I) 生成モデルの目覚ましい進歩により、美的に魅力的でフォトリアリスティックな画像を生成できる高性能モデルが多数生み出されました。
プロンプト画像の一貫性を向上させる既存のソリューションには、次のような課題があります。(1) モデルの微調整が必​​要な場合が多い、(2) 近くのプロンプト サンプルのみに焦点を当てている、(3) 画像間の不利なトレードオフの影響を受ける
このペーパーでは、これらの課題に対処し、プロンプトによる T2I 最適化フレームワーク OPT2I を紹介します。このフレームワークは、大規模言語モデル (LLM) を活用して、T2I モデルにおけるプロンプト画像の一貫性を向上させます。
私たちのフレームワークはユーザー プロンプトから始まり、一貫性スコアを最大化することを目標に、修正されたプロンプトを繰り返し生成します。
MSCOCO と PartiPrompts の 2 つのデータセットに対する広範な検証により、OPT2I が FID を維持し、生成されたデータと実際のデータの間の再現率を高めながら、DSG スコアに関して初期の一貫性スコアを最大 24.9% 高めることができることがわかりました。
私たちの取り組みは、LLM の力を利用して、より信頼性が高く堅牢な T2I システムを構築するための道を切り開きます。


Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images that are consistent with the input prompt, oftentimes failing to capture object quantities, relations and attributes properly. Existing solutions to improve prompt-image consistency suffer from the following challenges: (1) they oftentimes require model fine-tuning, (2) they only focus on nearby prompt samples, and (3) they are affected by unfavorable trade-offs among image quality, representation diversity, and prompt-image consistency. In this paper, we address these challenges and introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models. Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score. Our extensive validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost the initial consistency score by up to 24.9% in terms of DSG score while preserving the FID and increasing the recall between generated and real data. Our work paves the way toward building more reliable and robust T2I systems by harnessing the power of LLMs.


著者 Oscar Mañas,Pietro Astolfi,Melissa Hall,Candace Ross,Jack Urbanek,Adina Williams,Aishwarya Agrawal,Adriana Romero-Soriano,Michal Drozdzal
発行日 2024-03-26 15:42:01+00:00
カテゴリー: cs.CL, cs.CV パーマリンク