That’s What I Said: Fully-Controllable Talking Face Generation

要約

この論文の目標は、制御可能な顔の動きを備えた話し顔を合成することです。
この目標を達成するために、私たちは 2 つの重要なアイデアを提案します。
1 つ目は、すべての顔が同じ動作パターンを持つが、異なるアイデンティティを持つ標準的な空間を確立することです。
2 つ目は、アイデンティティ情報を排除しながら、モーション関連の特徴のみを表すマルチモーダル モーション スペースをナビゲートすることです。
アイデンティティと動きのもつれを解くために、2 つの異なる潜在空間間に直交性制約を導入します。
これから、私たちの方法は、完全に制御可能な顔の属性と正確な口の同期を備えた、自然に見える話し顔を生成できます。
広範な実験により、私たちの方法が視覚的な品質とリップシンクスコアの両方の点で最先端の結果を達成できることが実証されました。
私たちの知る限り、当社は音声付き RGB ビデオ以上の追加の監視なしで、生成されたビデオ内で唇、頭の姿勢、目の動きを含む完全なターゲットの顔の動きを正確に表現できる話し顔生成フレームワークを開発した最初の企業です。

要約(オリジナル)

The goal of this paper is to synthesise talking faces with controllable facial motions. To achieve this goal, we propose two key ideas. The first is to establish a canonical space where every face has the same motion patterns but different identities. The second is to navigate a multimodal motion space that only represents motion-related features while eliminating identity information. To disentangle identity and motion, we introduce an orthogonality constraint between the two different latent spaces. From this, our method can generate natural-looking talking faces with fully controllable facial attributes and accurate lip synchronisation. Extensive experiments demonstrate that our method achieves state-of-the-art results in terms of both visual quality and lip-sync score. To the best of our knowledge, we are the first to develop a talking face generation framework that can accurately manifest full target facial motions including lip, head pose, and eye movements in the generated video without any additional supervision beyond RGB video with audio.

arxiv情報

著者 Youngjoon Jang,Kyeongha Rho,Jong-Bin Woo,Hyeongkeun Lee,Jihwan Park,Youshin Lim,Byeong-Yeol Kim,Joon Son Chung
発行日 2023-09-18 12:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク