StyleDiffusion: Controllable Disentangled Style Transfer via Diffusion Models

要約

コンテンツとスタイル (C-S) のもつれを解くことは、スタイルの伝達における基本的な問題であり、重要な課題です。
明示的な定義 (例: グラム行列) または暗黙的な学習 (例: GAN) に基づく既存のアプローチは、解釈可能でも制御も容易ではなく、その結果、表現がもつれ、満足のいく結果が得られません。
この論文では、以前の仮定を使用せずに、スタイル転送のための新しい C-S 分解フレームワークを提案します。
重要な洞察は、コンテンツ情報を明示的に抽出し、補完的なスタイル情報を暗黙的に学習して、解釈可能かつ制御可能な C-S のもつれ解除とスタイルの転送を実現することです。
CLIP 画像空間内の C-S のもつれを解くために、事前のスタイル再構成と調整された、シンプルでありながら効果的な CLIP ベースのスタイルもつれ解除損失が導入されています。
拡散モデルの強力なスタイル除去機能と生成機能をさらに活用することで、私たちのフレームワークは、最先端の柔軟な C-S もつれ解除とトレードオフ制御よりも優れた結果を達成します。
私たちの研究は、スタイル伝達における C-S のもつれの解き方についての新たな洞察を提供し、よく解けた C-S の特性を学習するための拡散モデルの可能性を示しています。

要約(オリジナル)

Content and style (C-S) disentanglement is a fundamental problem and critical challenge of style transfer. Existing approaches based on explicit definitions (e.g., Gram matrix) or implicit learning (e.g., GANs) are neither interpretable nor easy to control, resulting in entangled representations and less satisfying results. In this paper, we propose a new C-S disentangled framework for style transfer without using previous assumptions. The key insight is to explicitly extract the content information and implicitly learn the complementary style information, yielding interpretable and controllable C-S disentanglement and style transfer. A simple yet effective CLIP-based style disentanglement loss coordinated with a style reconstruction prior is introduced to disentangle C-S in the CLIP image space. By further leveraging the powerful style removal and generative ability of diffusion models, our framework achieves superior results than state of the art and flexible C-S disentanglement and trade-off control. Our work provides new insights into the C-S disentanglement in style transfer and demonstrates the potential of diffusion models for learning well-disentangled C-S characteristics.

arxiv情報

著者 Zhizhong Wang,Lei Zhao,Wei Xing
発行日 2023-08-15 16:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク