Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot Artistic Style Transfer

要約

タイトル:Master:コントロール可能なゼロショットおよびフューションアートスタイルのメタスタイルトランスフォーマー

要約:

– トランスフォーマーベースのモデルは、グローバルな受容野と強力なマルチヘッド/レイヤー・アテンション・オペレーションにより、芸術的なスタイル転送において有利なパフォーマンスを実現しています。
– この論文では、芸術的なスタイル転送のために、共通の一連のパラメータを共有するMasterという新しいトランスフォーマーモデルを導入します。
– 提案されたモデルでは、(1)パラメータの総数を減らし、(2)より堅牢なトレーニング収束をもたらし、(3)推論時に自由にスタックされたレイヤーの数を調整することでスタイリゼーションの程度を制御することができます。
– 他方、バニラ版とは異なり、提案されたモデルでは、コンテンツ特徴量のスケーリング操作を採用し、コンテンツ-スタイル特徴量の相互作用の前に適用します。これにより、コンテンツ特徴間の類似性を保持しながら、スタイル化の品質を確保することができます。
– 提案されたモデルのための革新的なメタラーニングスキームも提案されます。これにより、Tranformerエンコーダーレイヤーを少数のスタイルに対して微調整することで、次の状況で適応可能になります。
– テキストガイドのフューショットスタイル転送を提案されたフレームワークで初めて達成します。
– 広範な実験により、提案されたMasterは、ゼロショットおよびフューショットスタイルの両方の転送設定において優れた性能を発揮することが示されています。

要約(オリジナル)

Transformer-based models achieve favorable performance in artistic style transfer recently thanks to its global receptive field and powerful multi-head/layer attention operations. Nevertheless, the over-paramerized multi-layer structure increases parameters significantly and thus presents a heavy burden for training. Moreover, for the task of style transfer, vanilla Transformer that fuses content and style features by residual connections is prone to content-wise distortion. In this paper, we devise a novel Transformer model termed as \emph{Master} specifically for style transfer. On the one hand, in the proposed model, different Transformer layers share a common group of parameters, which (1) reduces the total number of parameters, (2) leads to more robust training convergence, and (3) is readily to control the degree of stylization via tuning the number of stacked layers freely during inference. On the other hand, different from the vanilla version, we adopt a learnable scaling operation on content features before content-style feature interaction, which better preserves the original similarity between a pair of content features while ensuring the stylization quality. We also propose a novel meta learning scheme for the proposed model so that it can not only work in the typical setting of arbitrary style transfer, but also adaptable to the few-shot setting, by only fine-tuning the Transformer encoder layer in the few-shot stage for one specific style. Text-guided few-shot style transfer is firstly achieved with the proposed framework. Extensive experiments demonstrate the superiority of Master under both zero-shot and few-shot style transfer settings.

arxiv情報

著者 Hao Tang,Songhua Liu,Tianwei Lin,Shaoli Huang,Fu Li,Dongliang He,Xinchao Wang
発行日 2023-04-24 04:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク