要約
風景画を制作すると、芸術的な創造性と想像力の可能性が広がります。
伝統的な風景画の手法では、ライスペーパーに墨や色墨を使用するため、かなりの時間と労力を要します。
これらの方法はエラーや不一致が発生しやすく、線や色を正確に制御できません。
この論文では、風景画生成のための高忠実度で制御可能なモデルである LPGen を紹介し、画像プロンプトを拡散モデルに統合する新しいマルチモーダル フレームワークを紹介します。
対象となる風景画像から鋭いエッジを計算することで、そのエッジと輪郭を抽出します。
これらは、自然言語テキスト プロンプトおよび描画スタイル参照とともに、条件として潜在拡散モデルに入力されます。
画像とテキスト プロンプト間の互換性を確保するために、分離されたクロス アテンション戦略を実装し、マルチモーダル画像の生成を容易にします。
デコーダは最終画像を生成します。
定量的および定性的分析により、私たちの方法が風景画の生成における既存のアプローチよりも優れており、現在の最先端技術を超えていることが実証されています。
LPGen ネットワークは、風景画の構成と色を効果的に制御し、より正確な画像を生成し、深層学習ベースの風景画生成のさらなる研究をサポートします。
要約(オリジナル)
Generating landscape paintings expands the possibilities of artistic creativity and imagination. Traditional landscape painting methods involve using ink or colored ink on rice paper, which requires substantial time and effort. These methods are susceptible to errors and inconsistencies and lack precise control over lines and colors. This paper presents LPGen, a high-fidelity, controllable model for landscape painting generation, introducing a novel multi-modal framework that integrates image prompts into the diffusion model. We extract its edges and contours by computing canny edges from the target landscape image. These, along with natural language text prompts and drawing style references, are fed into the latent diffusion model as conditions. We implement a decoupled cross-attention strategy to ensure compatibility between image and text prompts, facilitating multi-modal image generation. A decoder generates the final image. Quantitative and qualitative analyses demonstrate that our method outperforms existing approaches in landscape painting generation and exceeds the current state-of-the-art. The LPGen network effectively controls the composition and color of landscape paintings, generates more accurate images, and supports further research in deep learning-based landscape painting generation.
arxiv情報
著者 | Wanggong Yang,Xiaona Wang,Yingrui Qiu,Yifei Zhao |
発行日 | 2024-07-24 12:32:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google