HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation

要約

話す顔の生成には、仮想デジタル ヒューマンの分野で幅広い応用の可能性があります。
ただし、口唇同期を確保しながら高忠実度の顔ビデオをレンダリングすることは、既存のオーディオ主導の話し顔生成アプローチにとって依然として課題です。
この問題に対処するために、私たちは唇を制御するためのハイパーネットワークと高忠実度の顔をレンダリングするための高解像度デコーダで構成される 2 段階のフレームワークである HyperLips を提案します。
最初の段階では、ハイパーネットワークを使用して、オーディオ上の視覚的な顔情報のエンコード潜在コードを制御するベースの顔生成ネットワークを構築します。
まず、FaceEncoder を使用して、顔フレームを含むビデオ ソースから取得した視覚的な顔情報から特徴を抽出することによって潜在コードを取得します。次に、HyperConv により、音声特徴を入力として HyperNet によって重み付けパラメーターが更新され、潜在コードが変更されます。
唇の動きを音声と同期させます。
最後に、FaceDecoder は、変更および同期された潜在コードをデコードして、視覚的な顔コンテンツを生成します。
第 2 段階では、高解像度デコーダを通じて、より高品質の顔ビデオを取得します。
顔生成の品質をさらに向上させるために、顔画像と最初の段階で生成された検出されたスケッチを入力として使用して、高解像度デコーダーである HRDecoder をトレーニングしました。広範な定量的および定性的実験により、私たちの方法が最先端の方法よりも優れていることが示されています。
よりリアルで忠実度の高いリップシンクを実現します。
プロジェクトページ:https://semchan.github.io/HyperLips/

要約(オリジナル)

Talking face generation has a wide range of potential applications in the field of virtual digital humans. However, rendering high-fidelity facial video while ensuring lip synchronization is still a challenge for existing audio-driven talking face generation approaches. To address this issue, we propose HyperLips, a two-stage framework consisting of a hypernetwork for controlling lips and a high-resolution decoder for rendering high-fidelity faces. In the first stage, we construct a base face generation network that uses the hypernetwork to control the encoding latent code of the visual face information over audio. First, FaceEncoder is used to obtain latent code by extracting features from the visual face information taken from the video source containing the face frame.Then, HyperConv, which weighting parameters are updated by HyperNet with the audio features as input, will modify the latent code to synchronize the lip movement with the audio. Finally, FaceDecoder will decode the modified and synchronized latent code into visual face content. In the second stage, we obtain higher quality face videos through a high-resolution decoder. To further improve the quality of face generation, we trained a high-resolution decoder, HRDecoder, using face images and detected sketches generated from the first stage as input.Extensive quantitative and qualitative experiments show that our method outperforms state-of-the-art work with more realistic, high-fidelity, and lip synchronization. Project page: https://semchan.github.io/HyperLips/

arxiv情報

著者 Yaosen Chen,Yu Yao,Zhiqiang Li,Wei Wang,Yanru Zhang,Han Yang,Xuming Wen
発行日 2023-10-10 05:00:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク