That’s What I Said: Fully-Controllable Talking Face Generation

要約

タイトル:完全に制御可能な話す顔の生成

要約:

– 目的: 制御可能な顔の動きを持つ話す顔を合成すること
– 2つの主要なアイデアを提案する。
– 1つ目は、すべての顔が同じ動きパターンを持つが、異なるアイデンティティを持つ規範空間を確立すること。
– 2つ目は、運動関連の特徴のみを表し、アイデンティティ情報を排除する多様な運動空間を航海すること。
– アイデンティティと動きを分離するために、2つの異なる潜在空間間に直交性制約を導入します。
– この方法からは、RGBビデオとオーディオ以外の追加の監視なしに、リップシンクスコアを完全に制御可能な顔の属性と正確なリップシンクロニゼーションを持つ自然な見た目の話す顔を生成できる。
– 経験豊富な実験により、視覚的品質とリップシンクスコアの両方において、我々の方法が最先端の結果を達成することが示された。
– RGBビデオとオーディオ以外の追加の監視なしに、リップ、ヘッドポーズ、およびアイの動きを含む完全なターゲット顔の動きを生成することができる生成されたビデオで。UEQのどのような面でも最初に話す顔世代フレームワークを開発したと思われる。

要約(オリジナル)

The goal of this paper is to synthesise talking faces with controllable facial motions. To achieve this goal, we propose two key ideas. The first is to establish a canonical space where every face has the same motion patterns but different identities. The second is to navigate a multimodal motion space that only represents motion-related features while eliminating identity information. To disentangle identity and motion, we introduce an orthogonality constraint between the two different latent spaces. From this, our method can generate natural-looking talking faces with fully controllable facial attributes and accurate lip synchronisation. Extensive experiments demonstrate that our method achieves state-of-the-art results in terms of both visual quality and lip-sync score. To the best of our knowledge, we are the first to develop a talking face generation framework that can accurately manifest full target facial motions including lip, head pose, and eye movements in the generated video without any additional supervision beyond RGB video with audio.

arxiv情報

著者 Youngjoon Jang,Kyeongha Rho,Jong-Bin Woo,Hyeongkeun Lee,Jihwan Park,Youshin Lim,Byeong-Yeol Kim,Joon Son Chung
発行日 2023-04-06 17:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク