StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements

要約

テキスト駆動のスタイル転送は、参照画像のスタイルをテキスト プロンプトで記述されたコンテンツとマージすることを目的としています。
テキストから画像へのモデルの最近の進歩により、スタイル変換の微妙な違いは改善されましたが、特に参照スタイルへのオーバーフィッティング、スタイル制御の制限、テキストコンテンツとの不整合など、大きな課題が残っています。
本稿では、これらの問題に対処するための 3 つの補完的な戦略を提案します。
まず、スタイルとテキストの機能をより適切に統合し、位置合わせを強化するために、クロスモーダル Adaptive Instance Normalization (AdaIN) メカニズムを導入します。
次に、スタイル要素の選択的な制御を可能にし、無関係な影響を軽減する、スタイルベースの分類子なしガイダンス (SCFG) アプローチを開発します。
最後に、初期生成段階で教師モデルを組み込み、空間レイアウトを安定させ、アーティファクトを軽減します。
私たちの広範な評価により、スタイル転送の品質とテキスト プロンプトとの整合性が大幅に向上していることが実証されています。
さらに、私たちのアプローチは、微調整することなく、既存のスタイル転送フレームワークに統合できます。

要約(オリジナル)

Text-driven style transfer aims to merge the style of a reference image with content described by a text prompt. Recent advancements in text-to-image models have improved the nuance of style transformations, yet significant challenges remain, particularly with overfitting to reference styles, limiting stylistic control, and misaligning with textual content. In this paper, we propose three complementary strategies to address these issues. First, we introduce a cross-modal Adaptive Instance Normalization (AdaIN) mechanism for better integration of style and text features, enhancing alignment. Second, we develop a Style-based Classifier-Free Guidance (SCFG) approach that enables selective control over stylistic elements, reducing irrelevant influences. Finally, we incorporate a teacher model during early generation stages to stabilize spatial layouts and mitigate artifacts. Our extensive evaluations demonstrate significant improvements in style transfer quality and alignment with textual prompts. Furthermore, our approach can be integrated into existing style transfer frameworks without fine-tuning.

arxiv情報

著者 Mingkun Lei,Xue Song,Beier Zhu,Hao Wang,Chi Zhang
発行日 2024-12-11 16:13:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク