要約
テキストベースのスタイル転送は、スタイル画像の代わりにテキスト情報を使用して転送プロセスをガイドする、新たに出現した研究トピックであり、スタイル転送の適用シナリオを大幅に拡張します。
ただし、以前の方法では、最適化またはテキストと画像のペアのデータに余分な時間が必要であり、効果が制限されていました。
この作業では、推論段階での最適化を必要としない、データ効率の高いテキストベースのスタイル転送方法を実現します。
具体的には、テキスト入力を事前トレーニング済みの VGG ネットワークのスタイル空間に変換して、より効果的なスタイル スワップを実現します。
また、CLIP のマルチモーダル埋め込みスペースを活用して、画像データセットのみでテキストからスタイルへのマッピングを学習します。
私たちの方法は、テキスト入力の任意の新しいスタイルをリアルタイムで転送し、高品質の芸術的な画像を合成できます。
要約(オリジナル)
Text-based style transfer is a newly-emerging research topic that uses text information instead of style image to guide the transfer process, significantly extending the application scenario of style transfer. However, previous methods require extra time for optimization or text-image paired data, leading to limited effectiveness. In this work, we achieve a data-efficient text-based style transfer method that does not require optimization at the inference stage. Specifically, we convert text input to the style space of the pre-trained VGG network to realize a more effective style swap. We also leverage CLIP’s multi-modal embedding space to learn the text-to-style mapping with the image dataset only. Our method can transfer arbitrary new styles of text input in real-time and synthesize high-quality artistic images.
arxiv情報
著者 | Yunpeng Bai,Jiayue Liu,Chao Dong,Chun Yuan |
発行日 | 2023-01-26 03:08:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google