要約
安定拡散のようなテキストから画像への拡散モデルは、近年多くの研究者の関心を集めており、拡散過程を反転させることは、生成過程をよりよく理解し、望ましい画像を得るためにプロンプトをどのように設計すればよいかを理解する上で重要な役割を果たす。この目的のために、生成的拡散モデルによって生成された画像が与えられたときに、テキストプロンプトを予測するという新しいタスクを導入する。提案するタスクに対処するために、一連のホワイトボックスモデルとブラックボックスモデル(拡散ネットワークの重みにアクセスする場合とアクセスしない場合)を組み合わせる。また、プロンプト回帰とマルチラベル語彙分類を組み合わせた新しい学習フレームワークを提案し、改善されたプロンプトを生成する。本手法をさらに改善するために、ラベリングノイズの少ない(すなわち、より整列された)画像とプロンプトのペアの学習を促進するカリキュラム学習手順と、ソースドメインとターゲットドメインのサンプル間の類似性を追加特徴として使用する教師なしドメイン適応カーネル学習法を採用する。DiffusionDBデータセットを用いて、Stable Diffusionによって生成された画像からテキストプロンプトを予測する実験を行う。我々の新しい学習フレームワークは、前述のタスクにおいて優れた結果をもたらし、ホワイトボックスモデルに適用した場合に最高の利益をもたらす。さらに、拡散モデルをプロンプト生成タスクで学習させることで、そのモデルをテキストから画像への生成に直接再利用した場合に、入力プロンプトと非常によく一致した画像を生成させることができるという興味深い発見もある。
要約(オリジナル)
Text-to-image diffusion models such as Stable Diffusion have recently attracted the interest of many researchers, and inverting the diffusion process can play an important role in better understanding the generative process and how to engineer prompts in order to obtain the desired images. To this end, we introduce the new task of predicting the text prompt given an image generated by a generative diffusion model. We combine a series of white-box and black-box models (with and without access to the weights of the diffusion network) to deal with the proposed task. We propose a novel learning framework comprising of a joint prompt regression and multi-label vocabulary classification objective that generates improved prompts. To further improve our method, we employ a curriculum learning procedure that promotes the learning of image-prompt pairs with lower labeling noise (i.e. that are better aligned), and an unsupervised domain-adaptive kernel learning method that uses the similarities between samples in the source and target domains as extra features. We conduct experiments on the DiffusionDB data set, predicting text prompts from images generated by Stable Diffusion. Our novel learning framework produces excellent results on the aforementioned task, yielding the highest gains when applied on the white-box model. In addition, we make an interesting discovery: training a diffusion model on the prompt generation task can make the model generate images that are much better aligned with the input prompts, when the model is directly reused for text-to-image generation.
arxiv情報
著者 | Florinel-Alin Croitoru,Vlad Hondru,Radu Tudor Ionescu,Mubarak Shah |
発行日 | 2023-08-02 23:39:29+00:00 |
arxivサイト | arxiv_id(pdf) |