Style Spectroscope: Improve Interpretability and Controllability through Fourier Analysis

要約

Universal Style Transfer (UST) は、任意の参照画像からコンテンツ画像にスタイルを注入します。
既存の方法は、多くの実用的な成功を収めていますが、コンテンツ画像の空間構造を維持するための UST アルゴリズムのさまざまなパフォーマンスなど、実験的な観察結果を説明することはできません。
さらに、メソッドは様式化に関する煩雑なグローバル コントロールに限定されるため、目的の様式化のために追加の空間マスクが必要になります。
この作業では、UST の一般的なフレームワークに関する体系的なフーリエ解析を提供します。
周波数ドメインでフレームワークの同等の形式を提示します。
この形式は、ゼロ周波数成分を除いて、既存のアルゴリズムが特徴マップのすべての周波数成分とピクセルを同等に扱うことを意味します。
フーリエ振幅と位相をそれぞれグラム行列とスタイル転送のコンテンツ再構成損失に接続します。
このような等価性と接続に基づいて、フーリエ位相を使用したアルゴリズム間の異なる構造保存動作を解釈できます。
私たちが持っている解釈を考慮して、構造の保存と望ましい様式化のために実際に2つの操作を提案します。
定性的実験と定量的実験の両方で、最先端の方法に対する私たちの方法の競争力のあるパフォーマンスが実証されています。
また、(1)上記の等価性、(2)フーリエ振幅と位相に基づく解釈可能性、(3)周波数成分に関連する可制御性を実証するための実験も行います。

要約(オリジナル)

Universal style transfer (UST) infuses styles from arbitrary reference images into content images. Existing methods, while enjoying many practical successes, are unable of explaining experimental observations, including different performances of UST algorithms in preserving the spatial structure of content images. In addition, methods are limited to cumbersome global controls on stylization, so that they require additional spatial masks for desired stylization. In this work, we provide a systematic Fourier analysis on a general framework for UST. We present an equivalent form of the framework in the frequency domain. The form implies that existing algorithms treat all frequency components and pixels of feature maps equally, except for the zero-frequency component. We connect Fourier amplitude and phase with Gram matrices and a content reconstruction loss in style transfer, respectively. Based on such equivalence and connections, we can thus interpret different structure preservation behaviors between algorithms with Fourier phase. Given the interpretations we have, we propose two manipulations in practice for structure preservation and desired stylization. Both qualitative and quantitative experiments demonstrate the competitive performance of our method against the state-of-the-art methods. We also conduct experiments to demonstrate (1) the abovementioned equivalence, (2) the interpretability based on Fourier amplitude and phase and (3) the controllability associated with frequency components.

arxiv情報

著者 Zhiyu Jin,Xuli Shen,Bin Li,Xiangyang Xue
発行日 2022-08-12 07:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク