要約
最近、拡散モデルの目覚ましい成果により、テキストから画像への生成の品質とパフォーマンスが大幅に向上しました。
ただし、テキストから画像への拡散モデルは、入力プロンプトに関して忠実度の高いコンテンツを生成できません。
テキストから拡散へのモデルが苦労する問題の 1 つは、テキスト プロンプトで指定された正確な数のオブジェクトを生成することです。
例えば。
「テーブルの上にリンゴ 5 個とレモン 10 個」というプロンプトが与えられた場合、拡散生成された画像には通常、間違った数のオブジェクトが含まれています。
この論文では、入力プロンプトが与えられた場合に正しいオブジェクト数を生成することに重点を置くように拡散モデルを改善する方法を提案します。
私たちは、任意の画像に対して参照のないクラスに依存しないカウントを実行するカウント ネットワークを採用しています。
計数ネットワークの勾配を計算し、各ステップの予測ノイズを調整します。
プロンプトで複数のタイプのオブジェクトを処理するために、新しいアテンション マップ ガイダンスを使用して、各オブジェクトの忠実度の高いマスクを取得します。
最後に、各オブジェクトの計算された勾配によってノイズ除去プロセスをガイドします。
広範な実験と評価を通じて、提案した誘導方法によりオブジェクト数に対する拡散モデルの忠実度が大幅に向上することを実証しました。
要約(オリジナル)
Recently, the quality and performance of text-to-image generation significantly advanced due to the impressive results of diffusion models. However, text-to-image diffusion models still fail to generate high fidelity content with respect to the input prompt. One problem where text-to-diffusion models struggle is generating the exact number of objects specified in the text prompt. E.g. given a prompt ‘five apples and ten lemons on a table’, diffusion-generated images usually contain the wrong number of objects. In this paper, we propose a method to improve diffusion models to focus on producing the correct object count given the input prompt. We adopt a counting network that performs reference-less class-agnostic counting for any given image. We calculate the gradients of the counting network and refine the predicted noise for each step. To handle multiple types of objects in the prompt, we use novel attention map guidance to obtain high-fidelity masks for each object. Finally, we guide the denoising process by the calculated gradients for each object. Through extensive experiments and evaluation, we demonstrate that our proposed guidance method greatly improves the fidelity of diffusion models to object count.
arxiv情報
著者 | Wonjun Kang,Kevin Galim,Hyung Il Koo |
発行日 | 2023-06-30 11:40:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google