StyleLipSync: Style-based Personalized Lip-sync Video Generation

要約

この論文では、任意のオーディオからアイデンティティに依存しないリップシンクビデオを生成できる、スタイルベースのパーソナライズされたリップシンクビデオ生成モデルである StyleLipSync を紹介します。
任意のアイデンティティのビデオを生成するには、事前トレーニング済みの StyleGAN の意味論的に豊富な潜在空間から表現力豊かなリップ プリアを活用します。ここで、線形変換を使用してビデオの一貫性を設計することもできます。
以前のリップシンク手法とは対照的に、フレームごとに 3D パラメトリック メッシュ予測子を利用することでフレーム全体の自然さを向上させるためにマスクを動的に配置する姿勢認識マスキングを導入します。
さらに、リップシンクの一般化を維持しながら人物固有の視覚情報を強化する同期レギュラライザーを導入することにより、任意の人物に対する数ショットのリップシンク適応手法を提案します。
広範な実験により、私たちのモデルはゼロショット設定でも正確なリップシンクビデオを生成でき、提案された適応方法を通じて数秒間のターゲットビデオを使用して見えない顔の特徴を強化できることが実証されました。

要約(オリジナル)

In this paper, we present StyleLipSync, a style-based personalized lip-sync video generative model that can generate identity-agnostic lip-synchronizing video from arbitrary audio. To generate a video of arbitrary identities, we leverage expressive lip prior from the semantically rich latent space of a pre-trained StyleGAN, where we can also design a video consistency with a linear transformation. In contrast to the previous lip-sync methods, we introduce pose-aware masking that dynamically locates the mask to improve the naturalness over frames by utilizing a 3D parametric mesh predictor frame by frame. Moreover, we propose a few-shot lip-sync adaptation method for an arbitrary person by introducing a sync regularizer that preserves lip-sync generalization while enhancing the person-specific visual information. Extensive experiments demonstrate that our model can generate accurate lip-sync videos even with the zero-shot setting and enhance characteristics of an unseen face using a few seconds of target video through the proposed adaptation method.

arxiv情報

著者 Taekyung Ki,Dongchan Min
発行日 2024-02-12 07:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク