要約
テキストから画像への合成 (T2I) は、大規模な普及モデルの出現により著しく進歩しました。
従来の設定では、テキスト プロンプトは明示的なユーザー定義のガイダンスを提供し、ランダムにサンプリングされたガウス ノイズのノイズを除去することによって生成プロセスを指示します。
この研究では、見落とされがちなノイズ自体が固有の生成傾向をコード化し、暗黙のうちに出力を導く「沈黙のプロンプト」として機能することを明らかにしました。
この暗黙的なガイダンスは、拡散モデルの定式化とそのトレーニング段階のノイズ スケジューラー設計に組み込まれており、幅広い T2I モデルとバックボーンにわたって一般化されます。
この洞察に基づいて、さまざまなユーザーのニーズを満たすために、事前に構築されたノイズ ライブラリから最適な初期ノイズを選択する新しい戦略である NoiseQuery を紹介します。
私たちのアプローチは、テキスト プロンプトとの高レベルのセマンティック調整を強化するだけでなく、テキストだけで制御するのが通常難しい、テクスチャ、シャープネス、形状、色などの低レベルの視覚属性の微妙な調整も可能にします。
さまざまなモデルとターゲット属性にわたる広範な実験により、追加の最適化を必要としない、当社のアプローチの強力なパフォーマンスとゼロショット移行可能性が実証されました。
要約(オリジナル)
Text-to-image synthesis (T2I) has advanced remarkably with the emergence of large-scale diffusion models. In the conventional setup, the text prompt provides explicit, user-defined guidance, directing the generation process by denoising a randomly sampled Gaussian noise. In this work, we reveal that the often-overlooked noise itself encodes inherent generative tendencies, acting as a ‘silent prompt’ that implicitly guides the output. This implicit guidance, embedded in the noise scheduler design of diffusion model formulations and their training stages, generalizes across a wide range of T2I models and backbones. Building on this insight, we introduce NoiseQuery, a novel strategy that selects optimal initial noise from a pre-built noise library to meet diverse user needs. Our approach not only enhances high-level semantic alignment with text prompts, but also allows for nuanced adjustments of low-level visual attributes, such as texture, sharpness, shape, and color, which are typically challenging to control through text alone. Extensive experiments across various models and target attributes demonstrate the strong performance and zero-shot transferability of our approach, requiring no additional optimization.
arxiv情報
著者 | Ruoyu Wang,Huayang Huang,Ye Zhu,Olga Russakovsky,Yu Wu |
発行日 | 2024-12-06 14:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google