Context-Preserving Two-Stage Video Domain Translation for Portrait Stylization


この問題に対処するために、ソースビデオのコンテキストを維持しながら、時間的に一貫した様式化されたビデオを生成するモデルを強制する目的関数を備えた新しい 2 段階のビデオ翻訳フレームワークを提案します。
さらに、私たちのモデルはフレームあたり 0.011 秒のレイテンシーでリアルタイムで実行され、560 万のパラメーターのみが必要なため、実用的な現実のアプリケーションに広く適用できます。


Portrait stylization, which translates a real human face image into an artistically stylized image, has attracted considerable interest and many prior works have shown impressive quality in recent years. However, despite their remarkable performances in the image-level translation tasks, prior methods show unsatisfactory results when they are applied to the video domain. To address the issue, we propose a novel two-stage video translation framework with an objective function which enforces a model to generate a temporally coherent stylized video while preserving context in the source video. Furthermore, our model runs in real-time with the latency of 0.011 seconds per frame and requires only 5.6M parameters, and thus is widely applicable to practical real-world applications.


著者 Doyeon Kim,Eunji Ko,Hyunsu Kim,Yunji Kim,Junho Kim,Dongchan Min,Junmo Kim,Sung Ju Hwang
発行日 2023-05-30 15:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク