ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors


最近、マルチメディア コミュニティは、特にテキストから画像への生成の分野で、ビジュアル コンテンツ作成のために大規模なマルチモーダル データでトレーニングされた拡散モデルの台頭を目の当たりにしています。
入力テキスト プロンプトとスタイル イメージが与えられた場合、このタスクは入力テキスト プロンプトに意味的に関連し、同時にスタイルでスタイル イメージと整合する様式化されたイメージを生成することを目的としています。
これを達成するために、テキスト プロンプトとスタイル画像のより多くの条件を可能にするトレーニング可能な変調ネットワークを使用して、事前トレーニングされたテキストから画像へのモデルをアップグレードすることにより、新しい拡散モデル (ControlStyle) を提示します。
広範な実験により、テキストから画像へのモデルと従来のスタイル転送技術の単純な組み合わせを超え、より視覚的に快適で芸術的な結果を生み出す ControlStyle の有効性が実証されています。


Recently, the multimedia community has witnessed the rise of diffusion models trained on large-scale multi-modal data for visual content creation, particularly in the field of text-to-image generation. In this paper, we propose a new task for “stylizing” text-to-image models, namely text-driven stylized image generation, that further enhances editability in content creation. Given input text prompt and style image, this task aims to produce stylized images which are both semantically relevant to input text prompt and meanwhile aligned with the style image in style. To achieve this, we present a new diffusion model (ControlStyle) via upgrading a pre-trained text-to-image model with a trainable modulation network enabling more conditions of text prompts and style images. Moreover, diffusion style and content regularizations are simultaneously introduced to facilitate the learning of this modulation network with these diffusion priors, pursuing high-quality stylized text-to-image generation. Extensive experiments demonstrate the effectiveness of our ControlStyle in producing more visually pleasing and artistic results, surpassing a simple combination of text-to-image model and conventional style transfer techniques.


著者 Jingwen Chen,Yingwei Pan,Ting Yao,Tao Mei
発行日 2023-11-09 15:50:52+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV, cs.MM パーマリンク