要約
拡散モデルは、制御された画像生成において優れた能力を示しており、それが画像スタイルの転送への関心をさらに高めています。
既存の研究は、特定のデータが不足しているため、主にフリーベースの手法 (画像反転など) をトレーニングすることに焦点を当てています。
この研究では、様式化されたデータ トリプレットを生成し、自動的にクレンジングする、コンテンツ スタイルの様式化された画像トリプレット用のデータ構築パイプラインを紹介します。
このパイプラインに基づいて、コミュニティが探索および研究できる、210,000 の画像トリプレットを含む初の大規模スタイル転送データセットであるデータセット IMAGStyle を構築します。
IMAGStyle を備えた CSGO は、独立した機能インジェクションを使用してコンテンツとスタイル機能を明示的に分離する、エンドツーエンドのトレーニングに基づくスタイル転送モデルを提案します。
統合された CSGO は、画像駆動型のスタイル転送、テキスト駆動型の様式化合成、およびテキスト編集駆動型の様式化合成を実装します。
広範な実験により、画像生成におけるスタイル制御機能の強化における私たちのアプローチの有効性が実証されました。
追加の視覚化とソース コードへのアクセスは、プロジェクト ページ \url{https://csgo-gen.github.io/} にあります。
要約(オリジナル)
The diffusion model has shown exceptional capabilities in controlled image generation, which has further fueled interest in image style transfer. Existing works mainly focus on training free-based methods (e.g., image inversion) due to the scarcity of specific data. In this study, we present a data construction pipeline for content-style-stylized image triplets that generates and automatically cleanses stylized data triplets. Based on this pipeline, we construct a dataset IMAGStyle, the first large-scale style transfer dataset containing 210k image triplets, available for the community to explore and research. Equipped with IMAGStyle, we propose CSGO, a style transfer model based on end-to-end training, which explicitly decouples content and style features employing independent feature injection. The unified CSGO implements image-driven style transfer, text-driven stylized synthesis, and text editing-driven stylized synthesis. Extensive experiments demonstrate the effectiveness of our approach in enhancing style control capabilities in image generation. Additional visualization and access to the source code can be located on the project page: \url{https://csgo-gen.github.io/}.
arxiv情報
著者 | Peng Xing,Haofan Wang,Yanpeng Sun,Qixun Wang,Xu Bai,Hao Ai,Renyuan Huang,Zechao Li |
発行日 | 2024-08-29 17:59:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google