Good Seed Makes a Good Crop: Discovering Secret Seeds in Text-to-Image Diffusion Models

要約

テキストから画像への (T2I) 拡散モデルの最近の進歩により、創造的でフォトリアリスティックな画像合成が容易になりました。
ランダム シードを変化させることで、固定テキスト プロンプトに対してさまざまな画像を生成できます。
技術的には、シードは初期ノイズを制御し、マルチステップ拡散推論では、逆拡散プロセスの中間タイムステップでの再パラメータ化に使用されるノイズを制御します。
ただし、生成された画像に対するランダム シードの具体的な影響は、比較的未調査のままです。
この研究では、拡散推論中のランダム シードの影響について大規模な科学的研究を実施します。
注目すべきことに、最も悪い「劣った」シードの FID 31.97 と比較して、最高の「黄金」シードは 21.60 という素晴らしい FID を達成したことが明らかになりました。
さらに、分類器は、画像の生成に使用されるシード番号をわずか数エポックで 99.9% 以上の精度で予測でき、生成された画像に基づいてシードが高度に区別できることが確立されます。
これらの発見に励まされて、私たちは解釈可能な視覚的次元に対する種子の影響を調べました。
特定のシードが一貫してグレースケール画像、目立つ空の領域、または画像の境界線を生成することがわかりました。
シードは、オブジェクトの位置、サイズ、深度などの画像の構成にも影響します。
さらに、これらの「黄金の」シードを活用することで、高忠実度の推論や多様なサンプリングなどの画像生成の向上を実証します。
私たちの調査は修復タスクにまで及び、不要なテキストアーティファクトを挿入する傾向があるいくつかの種を発見しました。
全体として、私たちの広範な分析は、優れたシードを選択することの重要性を強調し、画像生成の実用性を提供します。

要約(オリジナル)

Recent advances in text-to-image (T2I) diffusion models have facilitated creative and photorealistic image synthesis. By varying the random seeds, we can generate various images for a fixed text prompt. Technically, the seed controls the initial noise and, in multi-step diffusion inference, the noise used for reparameterization at intermediate timesteps in the reverse diffusion process. However, the specific impact of the random seed on the generated images remains relatively unexplored. In this work, we conduct a large-scale scientific study into the impact of random seeds during diffusion inference. Remarkably, we reveal that the best ‘golden’ seed achieved an impressive FID of 21.60, compared to the worst ‘inferior’ seed’s FID of 31.97. Additionally, a classifier can predict the seed number used to generate an image with over 99.9% accuracy in just a few epochs, establishing that seeds are highly distinguishable based on generated images. Encouraged by these findings, we examined the influence of seeds on interpretable visual dimensions. We find that certain seeds consistently produce grayscale images, prominent sky regions, or image borders. Seeds also affect image composition, including object location, size, and depth. Moreover, by leveraging these ‘golden’ seeds, we demonstrate improved image generation such as high-fidelity inference and diversified sampling. Our investigation extends to inpainting tasks, where we uncover some seeds that tend to insert unwanted text artifacts. Overall, our extensive analyses highlight the importance of selecting good seeds and offer practical utility for image generation.

arxiv情報

著者 Katherine Xu,Lingzhi Zhang,Jianbo Shi
発行日 2024-05-23 17:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク