Training-free Composite Scene Generation for Layout-to-Image Synthesis

要約

テキストから画像への拡散モデルにおける最近の進歩により、テキストの説明から忠実度の高いフォトリアリスティックな画像の生成が大幅に進歩しました。
しかし、これらのモデルはテキストから空間配置を解釈するのに苦労することが多く、正確な空間構成を備えた画像を生成する能力が妨げられます。
このギャップを埋めるために、レイアウトから画像への生成が有望な方向として浮上しています。
ただし、トレーニングベースのアプローチは、広範囲に注釈が付けられたデータセットが必要であるため制限があり、データ取得コストが高くつき、概念的な範囲が制限されます。
逆に、トレーニング不要の方法では、複雑な構成内で意味的に類似したオブジェクトを正確に見つけて生成するという課題に直面しています。
この論文では、拡散調整フェーズ中に敵対的な意味の交差を克服するように設計された、トレーニング不要の新しいアプローチを紹介します。
選択的サンプリングでトークン内損失を改善し、注意の再配分で拡散プロセスを強化することにより、2 つの革新的な制約を提案します。1) トークンの競合を解決して正確な概念合成を保証するトークン間制約。
2) ピクセル間の関係を改善するセルフ アテンション制約。
私たちの評価では、レイアウト情報を活用して拡散プロセスをガイドし、忠実性と複雑性を高めたコンテンツ豊富な画像を生成することの有効性が確認されています。
コードは https://github.com/Papple-F/csg.git で入手できます。

要約(オリジナル)

Recent breakthroughs in text-to-image diffusion models have significantly advanced the generation of high-fidelity, photo-realistic images from textual descriptions. Yet, these models often struggle with interpreting spatial arrangements from text, hindering their ability to produce images with precise spatial configurations. To bridge this gap, layout-to-image generation has emerged as a promising direction. However, training-based approaches are limited by the need for extensively annotated datasets, leading to high data acquisition costs and a constrained conceptual scope. Conversely, training-free methods face challenges in accurately locating and generating semantically similar objects within complex compositions. This paper introduces a novel training-free approach designed to overcome adversarial semantic intersections during the diffusion conditioning phase. By refining intra-token loss with selective sampling and enhancing the diffusion process with attention redistribution, we propose two innovative constraints: 1) an inter-token constraint that resolves token conflicts to ensure accurate concept synthesis; and 2) a self-attention constraint that improves pixel-to-pixel relationships. Our evaluations confirm the effectiveness of leveraging layout information for guiding the diffusion process, generating content-rich images with enhanced fidelity and complexity. Code is available at https://github.com/Papple-F/csg.git.

arxiv情報

著者 Jiaqi Liu,Tao Huang,Chang Xu
発行日 2024-07-18 15:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク