LayerFusion: Harmonized Multi-Layer Text-to-Image Generation with Generative Priors

要約

大規模拡散モデルは、テキストの説明から高品質の画像を生成することに目覚ましい成功を収め、さまざまなアプリケーションで人気を集めています。
ただし、前景レイヤーと背景レイヤーを備えた透明な画像などのレイヤー化されたコンテンツの生成は、依然として研究が進んでいない領域です。
レイヤード コンテンツの生成は、グラフィック デザイン、アニメーション、デジタル アートなどの分野でのクリエイティブ ワークフローにとって非常に重要です。柔軟な編集と構成にはレイヤーベースのアプローチが基本となります。
この論文では、潜在拡散モデル (LDM) に基づいた新しい画像生成パイプラインを提案します。このパイプラインは、透明度情報を持つ前景層 (RGBA) と背景層 (RGB) の 2 つの層で画像を生成します。
これらの層を順次生成する既存の方法とは異なり、私たちのアプローチでは、より一貫性のある出力を得るために層間の動的な相互作用を可能にする調和生成メカニズムを導入しています。
私たちは広範な定性的および定量的実験を通じてこの方法の有効性を実証し、ベースライン方法と比較して視覚的な一貫性、画質、レイヤーの一貫性が大幅に向上していることを示しています。

要約(オリジナル)

Large-scale diffusion models have achieved remarkable success in generating high-quality images from textual descriptions, gaining popularity across various applications. However, the generation of layered content, such as transparent images with foreground and background layers, remains an under-explored area. Layered content generation is crucial for creative workflows in fields like graphic design, animation, and digital art, where layer-based approaches are fundamental for flexible editing and composition. In this paper, we propose a novel image generation pipeline based on Latent Diffusion Models (LDMs) that generates images with two layers: a foreground layer (RGBA) with transparency information and a background layer (RGB). Unlike existing methods that generate these layers sequentially, our approach introduces a harmonized generation mechanism that enables dynamic interactions between the layers for more coherent outputs. We demonstrate the effectiveness of our method through extensive qualitative and quantitative experiments, showing significant improvements in visual coherence, image quality, and layer consistency compared to baseline methods.

arxiv情報

著者 Yusuf Dalva,Yijun Li,Qing Liu,Nanxuan Zhao,Jianming Zhang,Zhe Lin,Pinar Yanardag
発行日 2024-12-05 18:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク