Distribution-Conditional Generation: From Class Distribution to Creative Generation

要約

テキストからイメージ(T2I)拡散モデルは、意味的に整列した画像の作成に効果的ですが、トレーニングデータ分布に依存することにより、真に斬新で分散型の概念を合成する能力が制限されます。
既存の方法は、通常、既知の概念のペアを組み合わせることにより創造性を高め、分配不足であるが、既存のセマンティックスペース内で言語的に記述され、境界を掲載した構成を生成します。
あいまいな入力上の分類器のソフト確率的出力に触発された私たちは、分布条件の生成を提案します。これは、クラス分布に条件付けられた画像合成として創造性をモデル化し、意味的に制約のない創造的生成を可能にする新しい定式化を提案します。
これに基づいて、クラス分布を潜在的な空間にマッピングし、それらをクリエイティブなコンセプトのトークンにデコードするエンコーダーデコーダーフレームワークであるDistokを提案します。
Distokは、動的なコンセプトプールと繰り返しのサンプリングと融合の概念ペアを維持し、ますます複雑なクラス分布に合わせたトークンの生成を可能にします。
分布の一貫性を実施するために、ガウスの事前からサンプリングされた潜在的なベクトルはトークンにデコードされ、画像にレンダリングされます。そのクラス分布は、ビジョン言語モデルによって予測されており、入力分布と生成されたトークンの視覚セマンティクスとのアラインメントを説明します。
結果のトークンがコンセプトプールに追加され、後続の構成が追加されます。
広範な実験は、Distokが分布条件付きの融合とサンプリングベースの合成を統合することにより、効率的で柔軟なトークンレベルの生成を可能にし、優れたテキストイメージアライメントと人間の好みスコアを備えた最先端のパフォーマンスを達成できることを示しています。

要約(オリジナル)

Text-to-image (T2I) diffusion models are effective at producing semantically aligned images, but their reliance on training data distributions limits their ability to synthesize truly novel, out-of-distribution concepts. Existing methods typically enhance creativity by combining pairs of known concepts, yielding compositions that, while out-of-distribution, remain linguistically describable and bounded within the existing semantic space. Inspired by the soft probabilistic outputs of classifiers on ambiguous inputs, we propose Distribution-Conditional Generation, a novel formulation that models creativity as image synthesis conditioned on class distributions, enabling semantically unconstrained creative generation. Building on this, we propose DisTok, an encoder-decoder framework that maps class distributions into a latent space and decodes them into tokens of creative concept. DisTok maintains a dynamic concept pool and iteratively sampling and fusing concept pairs, enabling the generation of tokens aligned with increasingly complex class distributions. To enforce distributional consistency, latent vectors sampled from a Gaussian prior are decoded into tokens and rendered into images, whose class distributions-predicted by a vision-language model-supervise the alignment between input distributions and the visual semantics of generated tokens. The resulting tokens are added to the concept pool for subsequent composition. Extensive experiments demonstrate that DisTok, by unifying distribution-conditioned fusion and sampling-based synthesis, enables efficient and flexible token-level generation, achieving state-of-the-art performance with superior text-image alignment and human preference scores.

arxiv情報

著者 Fu Feng,Yucheng Xie,Xu Yang,Jing Wang,Xin Geng
発行日 2025-05-06 16:07:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク