High-Fidelity and Freely Controllable Talking Head Video Generation

要約

タイトル:高精度で自由にコントロール可能な話し上手な動画生成
要約:

– 話し上手な動画生成とは、与えられたソースのアイデンティティとターゲットの動きに基づいて動画を生成することである
– しかし、現在の方法にはいくつかの課題があり、生成される動画の品質とコントロール性を制限している
– 1つ目の課題は、生成される顔が予想外の変形や重度の歪みを持つことが多いことである
– 2つ目の課題は、ドライバー画像がポーズや表情などの移動に関連する情報を明示的に分離しないため、生成中に異なる属性の操作を制限することである
– 3つ目の課題は、生成された動画が、隣接フレーム間で抽出されたランドマークの不一致により、フリッカーのアーティファクトを持つ傾向があることである
– この論文では、自己監督学習されたランドマークと3D顔モデルベースのランドマークを活用して、高精度な話し上手な動画を自由に制御する新しいモデルを提案する
– さらに、モーションに自覚したマルチスケールフィーチャアライメントモジュールを導入し、顔の歪みなしに運動を効果的に転送する
– さらに、特徴コンテキスト適応・伝播モジュールを使用して、合成された話し上手な動画のスムーズさを高める
– 著者らは、挑戦的なデータセットでモデルを評価し、その最先端の性能を示した

要約(オリジナル)

Talking head generation is to generate video based on a given source identity and target motion. However, current methods face several challenges that limit the quality and controllability of the generated videos. First, the generated face often has unexpected deformation and severe distortions. Second, the driving image does not explicitly disentangle movement-relevant information, such as poses and expressions, which restricts the manipulation of different attributes during generation. Third, the generated videos tend to have flickering artifacts due to the inconsistency of the extracted landmarks between adjacent frames. In this paper, we propose a novel model that produces high-fidelity talking head videos with free control over head pose and expression. Our method leverages both self-supervised learned landmarks and 3D face model-based landmarks to model the motion. We also introduce a novel motion-aware multi-scale feature alignment module to effectively transfer the motion without face distortion. Furthermore, we enhance the smoothness of the synthesized talking head videos with a feature context adaptation and propagation module. We evaluate our model on challenging datasets and demonstrate its state-of-the-art performance. More information is available at https://yuegao.me/PECHead.

arxiv情報

著者 Yue Gao,Yuan Zhou,Jinglu Wang,Xiao Li,Xiang Ming,Yan Lu
発行日 2023-04-20 09:02:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク