StyleTalk: One-shot Talking Head Generation with Controllable Speaking Styles

要約

しかし、その話し方は人によって様々である。既存の一発芸は、リップシンク、自然な表情、安定した頭部動作などにおいて大きな進歩を遂げていますが、最終的なトーキングヘッド映像において、多様な話し方を生成することはできません。この問題に対処するため、我々は、スタイル制御可能なトーキングフェイス生成フレームワークを提案します。本手法は、任意の参照用発話映像から発話スタイルを獲得し、その参照用発話スタイルと別の音声で発話するように一発芸を駆動させることを目指します。具体的には、まず、スタイル参照映像から動的な顔の動きパターンを抽出し、スタイルコードに符号化するスタイルエンコーダを開発します。その後、スタイル制御可能なデコーダを導入し、発話内容とスタイルコードからスタイル化された顔アニメーションを合成する。生成されたビデオに参照話し方を統合するために、我々はスタイルを意識した適応変換器を設計し、コード化されたスタイルコードがそれに応じてフィードフォワード層の重みを調整することを可能にする。このスタイル適応機構により、デコード時に参照スピーキングスタイルをより適切に合成ビデオに埋め込むことができる。本手法は、1枚のポートレート画像と1つの音声クリップから、多様な発話スタイルを持つトーキングヘッド映像を生成し、本物の視覚効果を達成できることを、広範な実験により実証しています。プロジェクトページ:https://github.com/FuxiVirtualHuman/styletalk.

要約(オリジナル)

Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.

arxiv情報

著者 Yifeng Ma,Suzhen Wang,Zhipeng Hu,Changjie Fan,Tangjie Lv,Yu Ding,Zhidong Deng,Xin Yu
発行日 2023-01-03 13:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク