SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space

要約

顔の交換と口唇同期技術を組み合わせることで、カスタマイズされた話し顔を生成するためのコスト効率の高いソリューションが提供されます。
ただし、既存のモデルを直接カスケード接続すると、相互作用空間が低レベルのセマンティック RGB 空間に制限されるため、タスク間で重大な干渉が発生し、ビデオの鮮明さが低下する傾向があります。
この問題に対処するために、私たちは、顔の交換と口唇同期タスクの両方を同じ潜在空間で実行する革新的な統合フレームワークである SwapTalk を提案します。
顔生成に関する最近の研究を参照して、編集可能性と忠実度のパフォーマンスが優れているため、VQ 埋め込み空間を選択します。
目に見えないアイデンティティに対するフレームワークの一般化機能を強化するために、顔交換モジュールのトレーニング中にアイデンティティの損失を組み込みます。
さらに、リップシンクモジュールのトレーニング中に潜在空間内に専門的な弁別器の監視を導入し、同期の品質を向上させます。
評価段階では、これまでの研究は主に、同期オーディオビジュアルビデオにおける唇の動きの自己再構成に焦点を当てていました。
実際のアプリケーションをより適切に近似するために、評価範囲を非同期オーディオビデオ シナリオに拡張します。
さらに、生成された顔ビデオの時系列にわたるアイデンティティの一貫性をより包括的に評価するための新しいアイデンティティ一貫性メトリクスを導入します。
HDTF に関する実験結果は、私たちの方法がビデオ品質、リップシンク精度、顔交換の忠実度、およびアイデンティティの一貫性において既存の技術を大幅に上回っていることを示しています。
私たちのデモは http://swaptalk.cc から入手できます。

要約(オリジナル)

Combining face swapping with lip synchronization technology offers a cost-effective solution for customized talking face generation. However, directly cascading existing models together tends to introduce significant interference between tasks and reduce video clarity because the interaction space is limited to the low-level semantic RGB space. To address this issue, we propose an innovative unified framework, SwapTalk, which accomplishes both face swapping and lip synchronization tasks in the same latent space. Referring to recent work on face generation, we choose the VQ-embedding space due to its excellent editability and fidelity performance. To enhance the framework’s generalization capabilities for unseen identities, we incorporate identity loss during the training of the face swapping module. Additionally, we introduce expert discriminator supervision within the latent space during the training of the lip synchronization module to elevate synchronization quality. In the evaluation phase, previous studies primarily focused on the self-reconstruction of lip movements in synchronous audio-visual videos. To better approximate real-world applications, we expand the evaluation scope to asynchronous audio-video scenarios. Furthermore, we introduce a novel identity consistency metric to more comprehensively assess the identity consistency over time series in generated facial videos. Experimental results on the HDTF demonstrate that our method significantly surpasses existing techniques in video quality, lip synchronization accuracy, face swapping fidelity, and identity consistency. Our demo is available at http://swaptalk.cc.

arxiv情報

著者 Zeren Zhang,Haibo Qin,Jiayu Huang,Yixin Li,Hui Lin,Yitao Duan,Jinwen Ma
発行日 2024-05-09 09:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク