DINet: Deformation Inpainting Network for Realistic Face Visually Dubbing on High Resolution Video

要約

少数点学習において、高解像度映像に対してフォトリアルな顔画像ダビングを実現することは、依然として重要な課題である。これまでの研究では、忠実なダビング結果を生成することができなかった。そこで、本論文では、高解像度映像における顔のビジュアルダビングのためのDeformation Inpainting Network (DINet)を提案する。DINetは、潜在埋め込み画像から直接画素を生成するために複数のアップサンプリングレイヤーに依存する従来の作品とは異なり、高周波の質感の詳細をよりよく保存するために参照画像の特徴マップに対して空間変形を実行する。具体的には、DINetは1つの変形パートと1つのインペインティングパートから構成される。第一部では、5枚の参照顔画像に対して適応的に空間変形を行い、各フレームにおける口の形状を符号化した変形特徴マップを作成し、入力運転音声や入力ソース画像の頭部姿勢と整合するようにする。第2部では、顔面ビジュアルアフレコを実現するために、特徴量デコーダが、変形特徴量から得られる口の動きと、ソース特徴量から得られる他の属性(頭部姿勢や顔の上部の表情など)を適応的に合成する。最後に、DINetは豊かな質感を持つ顔の視覚的ダビングを実現する。DINetを高解像度ビデオで検証するために、定性的および定量的な比較を行った。実験結果は、本手法が最先端の技術を凌駕することを示す。

要約(オリジナル)

For few-shot learning, it is still a critical challenge to realize photo-realistic face visually dubbing on high-resolution videos. Previous works fail to generate high-fidelity dubbing results. To address the above problem, this paper proposes a Deformation Inpainting Network (DINet) for high-resolution face visually dubbing. Different from previous works relying on multiple up-sample layers to directly generate pixels from latent embeddings, DINet performs spatial deformation on feature maps of reference images to better preserve high-frequency textural details. Specifically, DINet consists of one deformation part and one inpainting part. In the first part, five reference facial images adaptively perform spatial deformation to create deformed feature maps encoding mouth shapes at each frame, in order to align with the input driving audio and also the head poses of the input source images. In the second part, to produce face visually dubbing, a feature decoder is responsible for adaptively incorporating mouth movements from the deformed feature maps and other attributes (i.e., head pose and upper facial expression) from the source feature maps together. Finally, DINet achieves face visually dubbing with rich textural details. We conduct qualitative and quantitative comparisons to validate our DINet on high-resolution videos. The experimental results show that our method outperforms state-of-the-art works.

arxiv情報

著者 Zhimeng Zhang,Zhipeng Hu,Wenjin Deng,Changjie Fan,Tangjie Lv,Yu Ding
発行日 2023-03-07 15:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク