Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling

要約

拡散モデルは、テキストの説明から高品質の画像を生成するための強力なツールとして登場しました。
これらのモデルは成功しているにもかかわらず、特に高い分類子なしのガイダンス重みを使用してサンプリングした場合、サンプリングされた画像の多様性が限られていることがよくあります。
この問題に対処するために、自己回帰潜在事前分布を組み込むことでサンプルの多様性を高める新しいアプローチである Kaleido を紹介します。
Kaleido は、元のキャプションをエンコードして潜在変数を生成する自己回帰言語モデルを統合し、画像生成プロセスをガイドおよび促進するための抽象的および中間表現として機能します。
この論文では、テキスト記述、検出境界ボックス、オブジェクト BLOB、および視覚トークンを含む、さまざまな離散潜在表現を調査します。
これらの表現により、拡散モデルへの入力条件が多様化および強化され、より多様な出力が可能になります。
私たちの実験結果は、Kaleido が高画質を維持しながら、与えられたテキスト記述から生成される画像サンプルの多様性を効果的に広げることを示しています。
さらに、Kaleido が生成された潜在変数によって提供されるガイダンスに厳密に従っていることを示し、画像生成プロセスを効果的に制御および指示する能力を実証します。

要約(オリジナル)

Diffusion models have emerged as a powerful tool for generating high-quality images from textual descriptions. Despite their successes, these models often exhibit limited diversity in the sampled images, particularly when sampling with a high classifier-free guidance weight. To address this issue, we present Kaleido, a novel approach that enhances the diversity of samples by incorporating autoregressive latent priors. Kaleido integrates an autoregressive language model that encodes the original caption and generates latent variables, serving as abstract and intermediary representations for guiding and facilitating the image generation process. In this paper, we explore a variety of discrete latent representations, including textual descriptions, detection bounding boxes, object blobs, and visual tokens. These representations diversify and enrich the input conditions to the diffusion models, enabling more diverse outputs. Our experimental results demonstrate that Kaleido effectively broadens the diversity of the generated image samples from a given textual description while maintaining high image quality. Furthermore, we show that Kaleido adheres closely to the guidance provided by the generated latent variables, demonstrating its capability to effectively control and direct the image generation process.

arxiv情報

著者 Jiatao Gu,Ying Shen,Shuangfei Zhai,Yizhe Zhang,Navdeep Jaitly,Joshua M. Susskind
発行日 2024-05-31 17:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク