StyleAdapter: A Unified Stylized Image Generation Model

要約

この作業は、特定のスタイルの参照画像と提供されるテキスト説明のコンテンツを使用して高品質の画像を生成することに重点を置いています。
DreamBooth や LoRA などの現在の主要なアルゴリズムは、スタイルごとに微調整する必要があり、時間がかかり、計算コストのかかるプロセスにつながります。
この研究では、スタイルごとの微調整を必要とせずに、指定されたプロンプトの内容と参照画像のスタイルの両方に一致するさまざまな様式化された画像を生成できる、統合様式化された画像生成モデルである StyleAdapter を提案します。
スタイル情報とテキスト プロンプトを個別に処理する 2 パス クロス アテンション (TPCA) モジュールが導入されています。これは、意味抑制ビジョン モデル (SSVM) と連携して、スタイル イメージの意味内容を抑制します。
このようにして、プロンプトが生成された画像のコンテンツに対する制御を維持すると同時に、スタイル参照のセマンティック情報による悪影響も軽減できます。
これにより、生成された画像のコンテンツがプロンプトに準拠し、そのスタイルがスタイル参照と一致します。
さらに、当社の StyleAdapter は、T2I アダプターや ControlNet などの既存の制御可能な合成手法と統合して、より制御可能で安定した生成プロセスを実現できます。
広範な実験により、私たちの方法が以前の研究よりも優れていることが実証されました。

要約(オリジナル)

This work focuses on generating high-quality images with specific style of reference images and content of provided textual descriptions. Current leading algorithms, i.e., DreamBooth and LoRA, require fine-tuning for each style, leading to time-consuming and computationally expensive processes. In this work, we propose StyleAdapter, a unified stylized image generation model capable of producing a variety of stylized images that match both the content of a given prompt and the style of reference images, without the need for per-style fine-tuning. It introduces a two-path cross-attention (TPCA) module to separately process style information and textual prompt, which cooperate with a semantic suppressing vision model (SSVM) to suppress the semantic content of style images. In this way, it can ensure that the prompt maintains control over the content of the generated images, while also mitigating the negative impact of semantic information in style references. This results in the content of the generated image adhering to the prompt, and its style aligning with the style references. Besides, our StyleAdapter can be integrated with existing controllable synthesis methods, such as T2I-adapter and ControlNet, to attain a more controllable and stable generation process. Extensive experiments demonstrate the superiority of our method over previous works.

arxiv情報

著者 Zhouxia Wang,Xintao Wang,Liangbin Xie,Zhongang Qi,Ying Shan,Wenping Wang,Ping Luo
発行日 2024-10-30 17:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク