MicroAST: Towards Super-Fast Ultra-Resolution Arbitrary Style Transfer

要約

Arbitrary Style Transfer (AST) は、任意のアーティスティック スタイルをコンテンツ イメージに転送します。
最近の急速な進歩にもかかわらず、既存の AST メソッドは、限られたリソースで超解像度 (4K など) で実行することができないか、遅すぎるため、さらなるアプリケーションを大きく妨げています。
このホワイト ペーパーでは、MicroAST と呼ばれる単純で軽量なモデルを学習することで、このジレンマに取り組みます。
重要な洞察は、面倒な事前トレーニング済みの深層畳み込みニューラル ネットワーク (VGG など) を推論で使用することを完全に放棄することです。
代わりに、スタイル転送用に 2 つのマイクロ エンコーダー (コンテンツおよびスタイル エンコーダー) と 1 つのマイクロ デコーダーを設計します。
コンテンツ エンコーダーは、コンテンツ イメージの主要な構造を抽出することを目的としています。
スタイル エンコーダーは、変調器と組み合わせて、スタイル イメージを学習可能なデュアル変調信号にエンコードします。この信号は、デコーダーの中間機能と畳み込みフィルターの両方を変調し、より洗練された柔軟なスタイル信号を挿入して、スタイル設定をガイドします。
さらに、スタイル エンコーダーがより明確で代表的なスタイル信号を抽出する能力を高めるために、モデルに新しいスタイル信号コントラスト損失も導入します。
最先端技術と比較して、当社の MicroAST は視覚的に優れた結果を生み出すだけでなく、5 ~ 73 倍小さく、6 ~ 18 倍高速であり、初めて 4K 超解像度で超高速 (約 0.5 秒) AST を可能にします。
.
コードは https://github.com/EndyWon/MicroAST で入手できます。

要約(オリジナル)

Arbitrary style transfer (AST) transfers arbitrary artistic styles onto content images. Despite the recent rapid progress, existing AST methods are either incapable or too slow to run at ultra-resolutions (e.g., 4K) with limited resources, which heavily hinders their further applications. In this paper, we tackle this dilemma by learning a straightforward and lightweight model, dubbed MicroAST. The key insight is to completely abandon the use of cumbersome pre-trained Deep Convolutional Neural Networks (e.g., VGG) at inference. Instead, we design two micro encoders (content and style encoders) and one micro decoder for style transfer. The content encoder aims at extracting the main structure of the content image. The style encoder, coupled with a modulator, encodes the style image into learnable dual-modulation signals that modulate both intermediate features and convolutional filters of the decoder, thus injecting more sophisticated and flexible style signals to guide the stylizations. In addition, to boost the ability of the style encoder to extract more distinct and representative style signals, we also introduce a new style signal contrastive loss in our model. Compared to the state of the art, our MicroAST not only produces visually superior results but also is 5-73 times smaller and 6-18 times faster, for the first time enabling super-fast (about 0.5 seconds) AST at 4K ultra-resolutions. Code is available at https://github.com/EndyWon/MicroAST.

arxiv情報

著者 Zhizhong Wang,Lei Zhao,Zhiwen Zuo,Ailin Li,Haibo Chen,Wei Xing,Dongming Lu
発行日 2022-11-28 13:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク