PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment

要約

拡散モデルは、テキストの説明から高品質の画像を生成する際に顕著な進歩を遂げました。
LayerDiffuseのような最近の作品は、以前の単一層の統一された画像生成パラダイムを透明な画像層生成に拡張しました。
ただし、既存のマルチレイヤー生成方法は、合理的なグローバルレイアウト、物理学的に対応可能な接触、影や反射などの視覚効果などの複数のレイヤー間の相互作用を処理できません。
この問題を解決するために、同時多層テキストからイメージの生成のための統一された拡散フレームワークであるpsdiffusionを提案します。
私たちのモデルは、単一のフィードフォワードプロセスを通じて、1つのRGBバックグラウンドと複数のRGBAフォアグラウンドを備えたマルチレイヤー画像を自動的に生成できます。
廃止後の複数のツールを組み合わせたり、層を連続的かつ個別に生成する既存の方法とは異なり、私たちの方法は、層状イメージを同時に共同で生成するグローバル層インタラクティブメカニズムを導入し、各レイヤーの高品質と完全性だけでなく、グローバルな共同体の層の間の空間的および視覚的相互作用を確保します。

要約(オリジナル)

Diffusion models have made remarkable advancements in generating high-quality images from textual descriptions. Recent works like LayerDiffuse have extended the previous single-layer, unified image generation paradigm to transparent image layer generation. However, existing multi-layer generation methods fail to handle the interactions among multiple layers such as rational global layout, physics-plausible contacts and visual effects like shadows and reflections while maintaining high alpha quality. To solve this problem, we propose PSDiffusion, a unified diffusion framework for simultaneous multi-layer text-to-image generation. Our model can automatically generate multi-layer images with one RGB background and multiple RGBA foregrounds through a single feed-forward process. Unlike existing methods that combine multiple tools for post-decomposition or generate layers sequentially and separately, our method introduces a global-layer interactive mechanism that generates layered-images concurrently and collaboratively, ensuring not only high quality and completeness for each layer, but also spatial and visual interactions among layers for global coherence.

arxiv情報

著者 Dingbang Huang,Wenbo Li,Yifei Zhao,Xinyu Pan,Yanhong Zeng,Bo Dai
発行日 2025-05-16 17:23:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク