Context-Preserving Two-Stage Video Domain Translation for Portrait Stylization

要約

本物の人間の顔の画像を芸術的に様式化された画像に変換するポートレートの様式化は、かなりの関心を集めており、近年、多くの先行作品が優れた品質を示しています。
しかし、従来の方法は、画像レベルの翻訳タスクでは顕著なパフォーマンスを示したにもかかわらず、ビデオ領域に適用すると満足のいく結果が得られませんでした。
この問題に対処するために、ソースビデオのコンテキストを維持しながら、時間的に一貫した様式化されたビデオを生成するモデルを強制する目的関数を備えた新しい 2 段階のビデオ翻訳フレームワークを提案します。
さらに、私たちのモデルはフレームあたり 0.011 秒のレイテンシーでリアルタイムで実行され、560 万のパラメーターのみが必要なため、実用的な現実のアプリケーションに広く適用できます。

要約(オリジナル)

Portrait stylization, which translates a real human face image into an artistically stylized image, has attracted considerable interest and many prior works have shown impressive quality in recent years. However, despite their remarkable performances in the image-level translation tasks, prior methods show unsatisfactory results when they are applied to the video domain. To address the issue, we propose a novel two-stage video translation framework with an objective function which enforces a model to generate a temporally coherent stylized video while preserving context in the source video. Furthermore, our model runs in real-time with the latency of 0.011 seconds per frame and requires only 5.6M parameters, and thus is widely applicable to practical real-world applications.

arxiv情報

著者 Doyeon Kim,Eunji Ko,Hyunsu Kim,Yunji Kim,Junho Kim,Dongchan Min,Junmo Kim,Sung Ju Hwang
発行日 2023-05-30 15:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク