VToonify: Controllable High-Resolution Portrait Video Style Transfer

要約

高品質の芸術的なポートレート ビデオを生成することは、コンピューター グラフィックスとビジョンにおいて重要かつ望ましいタスクです。
強力なStyleGANに基づいて構築された一連の成功したポートレート画像のトゥーン化モデルが提案されていますが、これらの画像指向の方法には、固定フレームサイズ、顔の位置合わせの要件、顔以外の詳細の欠落など、ビデオに適用する場合の明らかな制限があります。
一時的な矛盾。
この作業では、新しい VToonify フレームワークを導入することにより、挑戦的で制御可能な高解像度のポートレート ビデオ スタイル転送を調査します。
具体的には、VToonify は StyleGAN の中解像度レイヤーと高解像度レイヤーを活用して、エンコーダーによって抽出されたマルチスケール コンテンツ機能に基づいて高品質の芸術的なポートレートをレンダリングし、フレームの詳細をより適切に保持します。
結果として得られる完全な畳み込みアーキテクチャは、可変サイズのビデオ内の位置合わせされていない顔を入力として受け入れ、出力で自然な動きを持つ完全な顔領域に貢献します。
私たちのフレームワークは、既存の StyleGAN ベースの画像トゥーン化モデルと互換性があり、それらをビデオトゥーン化に拡張し、これらのモデルの魅力的な機能を継承して、色と強度の柔軟なスタイル制御を実現します。
この作品は、Toonify と DualStyleGAN に基づいて構築された VToonify の 2 つのインスタンス化を示しており、それぞれコレクション ベースと見本ベースのポートレート ビデオ スタイル転送を行います。
広範な実験結果は、柔軟なスタイル コントロールを備えた高品質で時間的に一貫性のある芸術的なポートレート ビデオを生成する際に、既存の方法よりも提案された VToonify フレームワークの有効性を示しています。

要約(オリジナル)

Generating high-quality artistic portrait videos is an important and desirable task in computer graphics and vision. Although a series of successful portrait image toonification models built upon the powerful StyleGAN have been proposed, these image-oriented methods have obvious limitations when applied to videos, such as the fixed frame size, the requirement of face alignment, missing non-facial details and temporal inconsistency. In this work, we investigate the challenging controllable high-resolution portrait video style transfer by introducing a novel VToonify framework. Specifically, VToonify leverages the mid- and high-resolution layers of StyleGAN to render high-quality artistic portraits based on the multi-scale content features extracted by an encoder to better preserve the frame details. The resulting fully convolutional architecture accepts non-aligned faces in videos of variable size as input, contributing to complete face regions with natural motions in the output. Our framework is compatible with existing StyleGAN-based image toonification models to extend them to video toonification, and inherits appealing features of these models for flexible style control on color and intensity. This work presents two instantiations of VToonify built upon Toonify and DualStyleGAN for collection-based and exemplar-based portrait video style transfer, respectively. Extensive experimental results demonstrate the effectiveness of our proposed VToonify framework over existing methods in generating high-quality and temporally-coherent artistic portrait videos with flexible style controls.

arxiv情報

著者 Shuai Yang,Liming Jiang,Ziwei Liu,Chen Change Loy
発行日 2022-09-22 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク