Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation


複雑な現実世界の画像からアニメ シーンを自動的に高品質にレンダリングすることは、非常に実用的な価値があります。
このタスクの課題は、シーンの複雑さ、アニメ スタイルの独特の特徴、ドメイン ギャップを埋める高品質のデータセットの欠如にあります。
この研究では、これらの課題に対処する新しい半教師あり画像間変換フレームワークである Scenimefy を提案します。
疑似データは、CLIP のような豊富なモデル事前分布を活用して、セマンティックに制約された StyleGAN から独自に導出されます。
スタイル化と細かいディテールを改善するために、パッチごとのコントラスト スタイルの損失が導入されています。
さらに、将来の研究を促進するために、高解像度のアニメ シーン データセットを提供します。


Automatic high-quality rendering of anime scenes from complex real-world images is of significant practical value. The challenges of this task lie in the complexity of the scenes, the unique features of anime style, and the lack of high-quality datasets to bridge the domain gap. Despite promising attempts, previous efforts are still incompetent in achieving satisfactory results with consistent semantic preservation, evident stylization, and fine details. In this study, we propose Scenimefy, a novel semi-supervised image-to-image translation framework that addresses these challenges. Our approach guides the learning with structure-consistent pseudo paired data, simplifying the pure unsupervised setting. The pseudo data are derived uniquely from a semantic-constrained StyleGAN leveraging rich model priors like CLIP. We further apply segmentation-guided data selection to obtain high-quality pseudo supervision. A patch-wise contrastive style loss is introduced to improve stylization and fine details. Besides, we contribute a high-resolution anime scene dataset to facilitate future research. Our extensive experiments demonstrate the superiority of our method over state-of-the-art baselines in terms of both perceptual quality and quantitative performance.


著者 Yuxin Jiang,Liming Jiang,Shuai Yang,Chen Change Loy
発行日 2023-08-24 17:59:50+00:00
