Improving Text-to-Image Consistency via Automatic Prompt Optimization

要約

テキストから画像への (T2I) 生成モデルの目覚ましい進歩により、美的に魅力的でフォトリアリスティックな画像を生成できる高性能モデルが多数生み出されました。
進歩にもかかわらず、これらのモデルは依然として入力プロンプトと一致する画像を生成するのに苦労しており、多くの場合、オブジェクトの数量、関係、属性を適切にキャプチャできません。
プロンプト画像の一貫性を向上させる既存のソリューションには、次のような課題があります。(1) モデルの微調整が必​​要な場合が多い、(2) 近くのプロンプト サンプルのみに焦点を当てている、(3) 画像間の不利なトレードオフの影響を受ける
品質、表現の多様性、プロンプトイメージの一貫性。
このペーパーでは、これらの課題に対処し、プロンプトによる T2I 最適化フレームワーク OPT2I を紹介します。このフレームワークは、大規模言語モデル (LLM) を活用して、T2I モデルにおけるプロンプト画像の一貫性を向上させます。
私たちのフレームワークはユーザー プロンプトから始まり、一貫性スコアを最大化することを目標に、修正されたプロンプトを繰り返し生成します。
MSCOCO と PartiPrompts の 2 つのデータセットに対する広範な検証により、OPT2I が FID を維持し、生成されたデータと実際のデータの間の再現率を高めながら、DSG スコアに関して初期の一貫性スコアを最大 24.9% 高めることができることがわかりました。
私たちの取り組みは、LLM の力を利用して、より信頼性が高く堅牢な T2I システムを構築するための道を切り開きます。

要約(オリジナル)

Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images that are consistent with the input prompt, oftentimes failing to capture object quantities, relations and attributes properly. Existing solutions to improve prompt-image consistency suffer from the following challenges: (1) they oftentimes require model fine-tuning, (2) they only focus on nearby prompt samples, and (3) they are affected by unfavorable trade-offs among image quality, representation diversity, and prompt-image consistency. In this paper, we address these challenges and introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models. Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score. Our extensive validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost the initial consistency score by up to 24.9% in terms of DSG score while preserving the FID and increasing the recall between generated and real data. Our work paves the way toward building more reliable and robust T2I systems by harnessing the power of LLMs.

arxiv情報

著者 Oscar Mañas,Pietro Astolfi,Melissa Hall,Candace Ross,Jack Urbanek,Adina Williams,Aishwarya Agrawal,Adriana Romero-Soriano,Michal Drozdzal
発行日 2024-03-26 15:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク