TIPO: Text to Image with Text Presampling for Prompt Optimization

要約

TIPO (Text to Image with text presampling for Prompt Optimization) は、自動プロンプト エンジニアリングのために、言語モデル (LM) によるテキストから画像への (T2I) 生成を強化するように設計された革新的なフレームワークです。
TIPO は、ユーザーが提供するプロンプトを改良および拡張することで、単純な入力と高品質の画像生成に必要な詳細なプロンプトの間のギャップを埋めます。
大規模言語モデル (LLM) や強化学習 (RL) に依存するこれまでのアプローチとは異なり、TIPO はトレーニングされたプロンプト データセットの配布を使用してユーザー入力プロンプトを調整し、軽量モデルによって複雑なランタイム コストの必要性を排除します。
このプリサンプリング アプローチにより、モデルのトレーニング分布に基づいた、効率的でスケーラブルな即時最適化が可能になります。
実験結果は、美的スコアの改善、画像の破損の削減、生成された画像とデータセットの分布のより適切な位置合わせにおける TIPO の有効性を示しています。
これらの発見は、T2I システムにおけるプロンプト エンジニアリングの重要な役割と、自動プロンプト改良のより広範なアプリケーションへの道を開くことを強調しています。

要約(オリジナル)

TIPO (Text to Image with text pre-sampling for Prompt Optimization) is an innovative framework designed to enhance text-to-image (T2I) generation by language model (LM) for automatic prompt engineering. By refining and extending user-provided prompts, TIPO bridges the gap between simple inputs and the detailed prompts required for high-quality image generation. Unlike previous approaches that rely on Large Language Models (LLMs) or reinforcement learning (RL), TIPO adjusts user input prompts with the distribution of a trained prompt dataset, eliminating the need for complex runtime cost via lightweight model. This pre-sampling approach enables efficient and scalable prompt optimization, grounded in the model’s training distribution. Experimental results demonstrate TIPO’s effectiveness in improving aesthetic scores, reducing image corruption, and better aligning generated images with dataset distributions. These findings highlight the critical role of prompt engineering in T2I systems and open avenues for broader applications of automatic prompt refinement.

arxiv情報

著者 Shih-Ying Yeh,Sang-Hyun Park,Giyeong Oh,Min Song,Youngjae Yu
発行日 2024-11-22 14:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク