Artist: Aesthetically Controllable Text-Driven Stylization without Training

要約

拡散モデルはノイズ除去プロセス中にコンテンツとスタイルの生成に絡み合い、スタイル化タスクに直接適用すると、望ましくないコンテンツの変更につながります。
既存の方法では、様式化の美的レベルの要件を満たすために拡散モデルを効果的に制御するのが困難です。
この論文では、\textbf{Artist} を紹介します。これは、テキスト駆動型のスタイル化のための事前トレーニング済み拡散モデルのコンテンツとスタイル生成を美的に制御する、トレーニング不要のアプローチです。
私たちの重要な洞察は、コンテンツとスタイルのノイズ除去を別々の拡散プロセスに分解し、それらの間で情報を共有することです。
私たちは、スタイルに無関係なコンテンツの生成を抑制し、調和のとれたスタイル化結果をもたらす、シンプルでありながら効果的なコンテンツとスタイルの制御方法を提案します。
広範な実験により、私たちの方法が美的レベルの様式化要件を達成し、コンテンツ画像の複雑な詳細を保持し、スタイルプロンプトとうまく調和することに優れていることが実証されました。
さらに、スタイリングの強さの制御性の高さをさまざまな角度から紹介します。
コードはリリースされます。プロジェクトのホームページ: https://DiffusionArtist.github.io

要約(オリジナル)

Diffusion models entangle content and style generation during the denoising process, leading to undesired content modification when directly applied to stylization tasks. Existing methods struggle to effectively control the diffusion model to meet the aesthetic-level requirements for stylization. In this paper, we introduce \textbf{Artist}, a training-free approach that aesthetically controls the content and style generation of a pretrained diffusion model for text-driven stylization. Our key insight is to disentangle the denoising of content and style into separate diffusion processes while sharing information between them. We propose simple yet effective content and style control methods that suppress style-irrelevant content generation, resulting in harmonious stylization results. Extensive experiments demonstrate that our method excels at achieving aesthetic-level stylization requirements, preserving intricate details in the content image and aligning well with the style prompt. Furthermore, we showcase the highly controllability of the stylization strength from various perspectives. Code will be released, project home page: https://DiffusionArtist.github.io

arxiv情報

著者 Ruixiang Jiang,Changwen Chen
発行日 2024-07-22 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク