SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing

要約

オーディオ駆動の話し顔生成は、入力オーディオに同期した唇の動きを伴うビデオを合成することを目的としています。
しかし、現在の生成技術は、複雑な局所的なテクスチャ (皮膚、歯) を保存するという課題に直面しています。
前述の課題に対処するために、中間表現としてセグメンテーションを導入することで唇の動きと画像テクスチャを分離する SegTalker と呼ばれる新しいフレームワークを提案します。
具体的には、解析ネットワークで使用される画像のマスクを考慮して、まず音声を活用してマスクを駆動し、会話のセグメンテーションを生成します。
次に、マスクガイド付きエンコーダーを使用して、画像の意味領域をスタイル コードに分解します。
最終的に、以前に生成したトーキング セグメンテーションとスタイル コードをマスク ガイド付き StyleGAN に注入して、ビデオ フレームを合成します。
このようにして、ほとんどのテクスチャが完全に保存されます。
さらに、私たちのアプローチは本質的に背景の分離を実現し、マスクガイドによる顔のローカル編集を容易にすることができます。
特に、マスクを編集し、特定の参照画像 (髪、唇、眉毛など) から領域テクスチャを交換することにより、私たちのアプローチは、話している顔のビデオを生成するときにシームレスに顔の編集を可能にします。
実験では、私たちが提案したアプローチがテクスチャの詳細を効果的に保存し、リップシンクで競争力を維持しながら時間的に一貫したビデオを生成できることを示しています。
HDTF および MEAD データセットの定量的および定性的な結果は、既存の方法よりもこの方法の優れたパフォーマンスを示しています。

要約(オリジナル)

Audio-driven talking face generation aims to synthesize video with lip movements synchronized to input audio. However, current generative techniques face challenges in preserving intricate regional textures (skin, teeth). To address the aforementioned challenges, we propose a novel framework called SegTalker to decouple lip movements and image textures by introducing segmentation as intermediate representation. Specifically, given the mask of image employed by a parsing network, we first leverage the speech to drive the mask and generate talking segmentation. Then we disentangle semantic regions of image into style codes using a mask-guided encoder. Ultimately, we inject the previously generated talking segmentation and style codes into a mask-guided StyleGAN to synthesize video frame. In this way, most of textures are fully preserved. Moreover, our approach can inherently achieve background separation and facilitate mask-guided facial local editing. In particular, by editing the mask and swapping the region textures from a given reference image (e.g. hair, lip, eyebrows), our approach enables facial editing seamlessly when generating talking face video. Experiments demonstrate that our proposed approach can effectively preserve texture details and generate temporally consistent video while remaining competitive in lip synchronization. Quantitative and qualitative results on the HDTF and MEAD datasets illustrate the superior performance of our method over existing methods.

arxiv情報

著者 Lingyu Xiong,Xize Cheng,Jintao Tan,Xianjia Wu,Xiandong Li,Lei Zhu,Fei Ma,Minglei Li,Huang Xu,Zhihu Hu
発行日 2024-09-05 15:11:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク