Be Decisive: Noise-Induced Layouts for Multi-Subject Generation

要約

複数の異なる被験者を生成することは、既存のテキストから画像間拡散モデルの課題のままです。
複雑なプロンプトは、多くの場合、被験者の漏れにつながり、量、属性、視覚的な特徴の不正確さを引き起こします。
被験者間の漏れを防ぐには、各被験者の空間的位置に関する知識が必要です。
最近の方法は、外部レイアウト制御を介してこれらの空間位置を提供します。
ただし、そのような規定されたレイアウトを実施することは、サンプリングされた初期ノイズによって決定される生来のレイアウトと競合することが多く、モデルの事前との不整合につながります。
この作業では、初期ノイズから派生したプロンプトに沿った空間レイアウトを予測し、除去プロセス全体でそれを改良する新しいアプローチを導入します。
このノイズ誘発レイアウトに依存することにより、外部から課されたレイアウトとの競合を回避し、モデルの事前をよりよく保存します。
私たちの方法は、小さなニューラルネットワークを採用して、各除去ステップで進化するノイズ誘発レイアウトを予測および改良し、一貫性を維持しながら被験者間の明確な境界を確保します。
実験結果は、このノイズに合った戦略が、モデルの元の分布の豊富な多様性を維持しながら、既存のレイアウト誘導技術と比較して、テキストイメージの調整とより安定したマルチサブスク生成を達成することを示しています。

要約(オリジナル)

Generating multiple distinct subjects remains a challenge for existing text-to-image diffusion models. Complex prompts often lead to subject leakage, causing inaccuracies in quantities, attributes, and visual features. Preventing leakage among subjects necessitates knowledge of each subject’s spatial location. Recent methods provide these spatial locations via an external layout control. However, enforcing such a prescribed layout often conflicts with the innate layout dictated by the sampled initial noise, leading to misalignment with the model’s prior. In this work, we introduce a new approach that predicts a spatial layout aligned with the prompt, derived from the initial noise, and refines it throughout the denoising process. By relying on this noise-induced layout, we avoid conflicts with externally imposed layouts and better preserve the model’s prior. Our method employs a small neural network to predict and refine the evolving noise-induced layout at each denoising step, ensuring clear boundaries between subjects while maintaining consistency. Experimental results show that this noise-aligned strategy achieves improved text-image alignment and more stable multi-subject generation compared to existing layout-guided techniques, while preserving the rich diversity of the model’s original distribution.

arxiv情報

著者 Omer Dahary,Yehonathan Cohen,Or Patashnik,Kfir Aberman,Daniel Cohen-Or
発行日 2025-05-27 17:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク