要約
任意のコンテンツとスタイルのイメージを考えると、任意のスタイルの転送は、コンテンツ画像の構造を保持し、スタイルのイメージのスタイルを所有する新しい様式化された画像をレンダリングすることを目的としています。
既存の任意のスタイル転送方法は、小さなモデルまたは事前に訓練された大規模モデルのいずれかに基づいています。
小さなモデルベースの方法は、高品質の様式化された画像を生成できず、アーティファクトと不調和なパターンをもたらします。
事前に訓練された大規模なモデルベースの方法は、高品質の様式化された画像を生成できますが、コンテンツ構造を維持し、長い推論時間を維持するのに苦労します。
この目的のために、スパストと呼ばれる新しいフレームワークを提案して、推論時間が短い高品質の様式化された画像を生成します。
具体的には、新しいローカルグローバルウィンドウサイズのスタイリライゼーションモジュール(LGWSSM)の騒々しいスタイルの機能をコンテンツ機能に設計します。
それに加えて、私たちは、事前に訓練された大規模なモデルからスパストにスタイルのプライアーを掘り下げ、短い推論時間で高品質の様式化された画像を生成するように動機づけることができる新しいスタイルの事前損失を導入します。私たちの提案された方法が高品質の様式化された画像を生成することができることを確認するために、豊富な実験を実施します。
要約(オリジナル)
Given an arbitrary content and style image, arbitrary style transfer aims to render a new stylized image which preserves the content image’s structure and possesses the style image’s style. Existing arbitrary style transfer methods are based on either small models or pre-trained large-scale models. The small model-based methods fail to generate high-quality stylized images, bringing artifacts and disharmonious patterns. The pre-trained large-scale model-based methods can generate high-quality stylized images but struggle to preserve the content structure and cost long inference time. To this end, we propose a new framework, called SPAST, to generate high-quality stylized images with less inference time. Specifically, we design a novel Local-global Window Size Stylization Module (LGWSSM)tofuse style features into content features. Besides, we introduce a novel style prior loss, which can dig out the style priors from a pre-trained large-scale model into the SPAST and motivate the SPAST to generate high-quality stylized images with short inference time.We conduct abundant experiments to verify that our proposed method can generate high-quality stylized images and less inference time compared with the SOTA arbitrary style transfer methods.
arxiv情報
著者 | Zhanjie Zhang,Quanwei Zhang,Junsheng Luan,Mengyuan Yang,Yun Wang,Lei Zhao |
発行日 | 2025-05-13 15:54:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google