Prompt Optimizer of Text-to-Image Diffusion Models for Abstract Concept Understanding

要約

テキストから画像への拡散モデルの急速な進化により、生成 AI の扉が開かれ、テキストによる説明を、驚くべき品質で視覚的に説得力のある画像に変換できるようになりました。
ただし、この領域における永続的な課題は、抽象的な概念を具体的なオブジェクトに効果的に伝えるためのプロンプトの最適化です。
たとえば、テキスト エンコーダは「平和」をほとんど表現できませんが、オリーブの枝や白い鳩を簡単に表現できます。
このペーパーでは、抽象概念から画像を解釈および生成する際のテキストから画像への拡散モデルのパフォーマンスを強化するために特別に設計された Prompt Optimizer for Abstract Concepts (POAC) という新しいアプローチを紹介します。
私たちは、事前にトレーニングされた言語モデルから初期化され、抽象概念プロンプトの厳選されたデータセットで微調整されるプロンプト言語モデル (PLM) を提案します。
データセットは GPT-4 で作成され、抽象的な概念をシーンや具体的なオブジェクトに拡張します。
私たちのフレームワークは強化学習 (RL) ベースの最適化戦略を採用しており、安定した拡散モデルによって生成された画像と最適化されたプロンプトの間の位置合わせに重点を置いています。
広範な実験を通じて、私たちが提案する POAC が、特に抽象的な概念の説明と最適化されたプロンプトとの調整において、生成された画像の精度と美的品質を大幅に向上させることを実証しました。
また、さまざまな設定の下での拡散モデルにわたるモデルのパフォーマンスの包括的な分析も示し、抽象概念の表現を強化する際のその多用途性と有効性を示します。

要約(オリジナル)

The rapid evolution of text-to-image diffusion models has opened the door of generative AI, enabling the translation of textual descriptions into visually compelling images with remarkable quality. However, a persistent challenge within this domain is the optimization of prompts to effectively convey abstract concepts into concrete objects. For example, text encoders can hardly express ‘peace’, while can easily illustrate olive branches and white doves. This paper introduces a novel approach named Prompt Optimizer for Abstract Concepts (POAC) specifically designed to enhance the performance of text-to-image diffusion models in interpreting and generating images from abstract concepts. We propose a Prompt Language Model (PLM), which is initialized from a pre-trained language model, and then fine-tuned with a curated dataset of abstract concept prompts. The dataset is created with GPT-4 to extend the abstract concept to a scene and concrete objects. Our framework employs a Reinforcement Learning (RL)-based optimization strategy, focusing on the alignment between the generated images by a stable diffusion model and optimized prompts. Through extensive experiments, we demonstrate that our proposed POAC significantly improves the accuracy and aesthetic quality of generated images, particularly in the description of abstract concepts and alignment with optimized prompts. We also present a comprehensive analysis of our model’s performance across diffusion models under different settings, showcasing its versatility and effectiveness in enhancing abstract concept representation.

arxiv情報

著者 Zezhong Fan,Xiaohan Li,Chenhao Fang,Topojoy Biswas,Kaushiki Nag,Jianpeng Xu,Kannan Achan
発行日 2024-04-17 17:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク