要約
本論文では、トレーニング中にビデオを見ることなく、芸術的、写実的、およびビデオスタイルの転送を共同で実行できる、普遍的に用途の広いスタイル転送方法を考案することを目指しています。
以前のシングルフレームメソッドは、時間的な一貫性を維持するために画像全体に強い制約を想定していますが、これは多くの場合違反する可能性があります。
代わりに、グローバルな不整合はローカルの不整合によって支配されているという穏やかで合理的な仮定を立て、ローカルパッチに適用される一般的なContrastive Coherence Preserving Loss(CCPL)を考案します。
CCPLは、スタイルを低下させることなく、スタイル転送中にコンテンツソースの一貫性を維持できます。
さらに、ネイバー調整メカニズムを備えているため、局所的な歪みが大幅に減少し、視覚的な品質が大幅に向上します。
用途の広いスタイル転送での優れたパフォーマンスに加えて、画像から画像への変換などの他のタスクにも簡単に拡張できます。
さらに、コンテンツとスタイル機能をより適切に融合するために、コンテンツ機能の2次統計をスタイル機能と効果的に整合させるSimple Covariance Transformation(SCT)を提案します。
実験は、CCPLで武装した場合の、多様なスタイルの転送に対する結果のモデルの有効性を示しています。
要約(オリジナル)
In this paper, we aim to devise a universally versatile style transfer method capable of performing artistic, photo-realistic, and video style transfer jointly, without seeing videos during training. Previous single-frame methods assume a strong constraint on the whole image to maintain temporal consistency, which could be violated in many cases. Instead, we make a mild and reasonable assumption that global inconsistency is dominated by local inconsistencies and devise a generic Contrastive Coherence Preserving Loss (CCPL) applied to local patches. CCPL can preserve the coherence of the content source during style transfer without degrading stylization. Moreover, it owns a neighbor-regulating mechanism, resulting in a vast reduction of local distortions and considerable visual quality improvement. Aside from its superior performance on versatile style transfer, it can be easily extended to other tasks, such as image-to-image translation. Besides, to better fuse content and style features, we propose Simple Covariance Transformation (SCT) to effectively align second-order statistics of the content feature with the style feature. Experiments demonstrate the effectiveness of the resulting model for versatile style transfer, when armed with CCPL.
arxiv情報
著者 | Zijie Wu,Zhen Zhu,Junping Du,Xiang Bai |
発行日 | 2022-07-11 12:09:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google