Superior and Pragmatic Talking Face Generation with Teacher-Student Framework

要約

話し顔生成技術は、任意の外観とモーション信号から話しビデオを作成します。「任意」は使いやすさを提供しますが、実用化には課題も伴います。
既存のメソッドは標準入力ではうまく機能しますが、複雑な現実世界の入力では重大なパフォーマンス低下が発生します。
さらに、導入においては効率も重要な関心事です。
これらの問題に包括的に対処するために、品質、堅牢性、コスト、編集可能性のバランスをとった教師と生徒のフレームワークである SuperFace を導入します。
まず、さまざまな品質の入力を処理して高品質の結果を生成できる、シンプルだが効果的な教師モデルを提案します。
これに基づいて、計算負荷を大幅に削減しながら品質を維持する、アイデンティティ固有の学生モデルを取得するための効率的な蒸留戦略を考案します。
私たちの実験では、特に学生モデルで FLOP を 99\% 削減するという点で、前述の 4 つの目的に対して、SuperFace が既存の方法よりも包括的なソリューションを提供することを検証しました。
SuperFace はビデオとオーディオの両方で駆動でき、局所的な顔属性の編集が可能です。

要約(オリジナル)

Talking face generation technology creates talking videos from arbitrary appearance and motion signal, with the ‘arbitrary’ offering ease of use but also introducing challenges in practical applications. Existing methods work well with standard inputs but suffer serious performance degradation with intricate real-world ones. Moreover, efficiency is also an important concern in deployment. To comprehensively address these issues, we introduce SuperFace, a teacher-student framework that balances quality, robustness, cost and editability. We first propose a simple but effective teacher model capable of handling inputs of varying qualities to generate high-quality results. Building on this, we devise an efficient distillation strategy to acquire an identity-specific student model that maintains quality with significantly reduced computational load. Our experiments validate that SuperFace offers a more comprehensive solution than existing methods for the four mentioned objectives, especially in reducing FLOPs by 99\% with the student model. SuperFace can be driven by both video and audio and allows for localized facial attributes editing.

arxiv情報

著者 Chao Liang,Jianwen Jiang,Tianyun Zhong,Gaojie Lin,Zhengkun Rong,Jiaqi Yang,Yongming Zhu
発行日 2024-03-26 17:13:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク