要約
テキストからイメージへの生成モデルは、しばしば複雑なシーン、明確な視覚的特性と空間的関係を備えた多様なオブジェクトを詳述する長いプロンプトと格闘しています。
この作業では、粗からファインからファインの穀物を徐々に改良することにより、テキストから画像への調整を改善するためのトレーニングなしの方法である、範囲(粗から洗練されたプロンプトの埋め込みのスケジュールされた補間)を提案します。
詳細な入力プロンプトが与えられると、最初に複数のサブプロンプトに分解します。これは、広範なシーンレイアウトの説明から非常に複雑な詳細に進化します。
推論中に、これらのサブプロンプト間を補間し、生成された画像に細かい粒子の詳細を徐々に導入します。
当社のトレーニングフリーのプラグアンドプレイアプローチは、プロンプトアライメントを大幅に強化し、Genai-Benchデータセットのプロンプトの83%で安定した拡散ベースライン上の視覚的質問回答(VQA)スコアの+8を超える平均改善を達成します。
要約(オリジナル)
Text-to-image generative models often struggle with long prompts detailing complex scenes, diverse objects with distinct visual characteristics and spatial relationships. In this work, we propose SCoPE (Scheduled interpolation of Coarse-to-fine Prompt Embeddings), a training-free method to improve text-to-image alignment by progressively refining the input prompt in a coarse-to-fine-grained manner. Given a detailed input prompt, we first decompose it into multiple sub-prompts which evolve from describing broad scene layout to highly intricate details. During inference, we interpolate between these sub-prompts and thus progressively introduce finer-grained details into the generated image. Our training-free plug-and-play approach significantly enhances prompt alignment, achieves an average improvement of more than +8 in Visual Question Answering (VQA) scores over the Stable Diffusion baselines on 83% of the prompts from the GenAI-Bench dataset.
arxiv情報
著者 | Ketan Suhaas Saichandran,Xavier Thomas,Prakhar Kaushik,Deepti Ghadiyaram |
発行日 | 2025-05-30 16:44:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google