Implicit Identity Representation Conditioned Memory Compensation Network for Talking Head video Generation

要約

トーキング ヘッド ビデオ生成は、ソース画像内の人物のアイデンティティを維持しながら、ターゲットの運転ビデオから得られたモーション情報を使用して、動的なポーズや表情を備えた静止画内の人間の顔をアニメーション化することを目的としています。
しかし、走行ビデオにおけるドラマチックで複雑な動きは、静止ソース画像がオクルージョンされた領域や微妙な表情の変化に対する十分な外観情報を提供できないため、曖昧な生成を引き起こし、深刻なアーティファクトを生成し、生成品質を著しく低下させます。
この問題に取り組むために、私たちはグローバルな顔表現空間を学習し、高忠実度のトーキングヘッド生成のために、MCNet と呼ばれる新しい暗黙的アイデンティティ表現条件付き記憶補償ネットワークを設計することを提案します。~特に、私たちはネットワーク モジュールを考案して、
すべてのトレーニング サンプルから統合された空間顔メタメモリ バンク。これにより、生成時に歪んだソース顔の特徴を補正するための豊富な顔の構造と外観の事前情報を提供できます。
さらに、ソース画像の離散キーポイントから学習した暗黙的なアイデンティティ表現に基づいた効果的なクエリメカニズムを提案します。
これにより、補正のためにメモリ バンクからより多くの相関情報を取得することが大幅に容易になります。
広範な実験により、MCNet が代表的かつ相補的な顔の記憶を学習でき、VoxCeleb1 および CelebV データセットに対するこれまでの最先端のトーキング ヘッド生成方法を明らかに上回る性能を発揮できることが実証されました。
\href{https://github.com/harlanhong/ICCV2023-MCNET}{プロジェクト}をご確認ください。

要約(オリジナル)

Talking head video generation aims to animate a human face in a still image with dynamic poses and expressions using motion information derived from a target-driving video, while maintaining the person’s identity in the source image. However, dramatic and complex motions in the driving video cause ambiguous generation, because the still source image cannot provide sufficient appearance information for occluded regions or delicate expression variations, which produces severe artifacts and significantly degrades the generation quality. To tackle this problem, we propose to learn a global facial representation space, and design a novel implicit identity representation conditioned memory compensation network, coined as MCNet, for high-fidelity talking head generation.~Specifically, we devise a network module to learn a unified spatial facial meta-memory bank from all training samples, which can provide rich facial structure and appearance priors to compensate warped source facial features for the generation. Furthermore, we propose an effective query mechanism based on implicit identity representations learned from the discrete keypoints of the source image. It can greatly facilitate the retrieval of more correlated information from the memory bank for the compensation. Extensive experiments demonstrate that MCNet can learn representative and complementary facial memory, and can clearly outperform previous state-of-the-art talking head generation methods on VoxCeleb1 and CelebV datasets. Please check our \href{https://github.com/harlanhong/ICCV2023-MCNET}{Project}.

arxiv情報

著者 Fa-Ting Hong,Dan Xu
発行日 2023-07-19 11:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク