Text Semantics to Image Generation: A method of building facades design base on Stable Diffusion model

要約

タイトル:テキストの意味からイメージを生成する:Stable Diffusionモデルに基づくファサードデザインの構築方法

要約:
– Stable Diffusionモデルは、建築イメージ生成の研究に広く使用されていますが、生成されたイメージのコンテンツのコントロール性を向上する機会がまだあります。
– この研究では、複数のネットワークを組み合わせたテキストからファサードイメージを生成する方法が提案されています。まず、LoRA(Low-Rank Adaptation)アプローチを使用して、CMP FaçadesデータセットでStable Diffusionモデルを微調整します。その後、ControlNetモデルを適用して出力をさらに制御します。
– 最後に、さまざまな建築スタイルのテキストコンテンツとコントロール戦略の下でファサード生成の結果を比較しました。
– 結果は、LoRAトレーニングアプローチがStable Diffusion大規模モデルの微調整の可能性を著しく減少させ、ControlNetモデルの追加がテキストからビルファサードイメージの作成の制御性を増加させることを示しています。
– これは、建築イメージの生成に関する後続の研究の基盤を提供します。

要約(オリジナル)

Stable Diffusion model has been extensively employed in the study of archi-tectural image generation, but there is still an opportunity to enhance in terms of the controllability of the generated image content. A multi-network combined text-to-building facade image generating method is proposed in this work. We first fine-tuned the Stable Diffusion model on the CMP Fa-cades dataset using the LoRA (Low-Rank Adaptation) approach, then we ap-ply the ControlNet model to further control the output. Finally, we contrast-ed the facade generating outcomes under various architectural style text con-tents and control strategies. The results demonstrate that the LoRA training approach significantly decreases the possibility of fine-tuning the Stable Dif-fusion large model, and the addition of the ControlNet model increases the controllability of the creation of text to building facade images. This pro-vides a foundation for subsequent studies on the generation of architectural images.

arxiv情報

著者 Haoran Ma
発行日 2023-04-07 10:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク