Style Transfer for 2D Talking Head Animation

要約

オーディオ駆動のトーキング ヘッド アニメーションは、多くの現実世界での応用が可能な挑戦的な研究テーマです。
最近の研究では、写真のようにリアルな 2D アニメーションの作成に重点が置かれていますが、さまざまな話し方や歌唱スタイルの学習は未解決の問題のままです。
この論文では、学習可能なスタイル参照を使用してトーキング ヘッド アニメーションを生成する新しい方法を紹介します。
スタイル参照フレームのセットが与えられると、私たちのフレームワークは、単一の入力画像とオーディオ ストリームに基づいて 2D トーキング ヘッド アニメーションを再構築できます。
この方法では、最初にオーディオ ストリームから顔のランドマーク モーションを生成し、スタイル参照画像から中間スタイル パターンを構築します。
次に、両方の出力をスタイル対応の画像ジェネレーターに入力して、写真のようにリアルで忠実な 2D アニメーションを生成します。
実際には、私たちのフレームワークは特定のキャラクターのスタイル情報を抽出し、トーキング ヘッド アニメーション用の新しい静止画像に転送できます。
集中的な実験結果は、私たちの方法が最近の最先端のアプローチよりも質的および量的に優れた結果を達成することを示しています。

要約(オリジナル)

Audio-driven talking head animation is a challenging research topic with many real-world applications. Recent works have focused on creating photo-realistic 2D animation, while learning different talking or singing styles remains an open problem. In this paper, we present a new method to generate talking head animation with learnable style references. Given a set of style reference frames, our framework can reconstruct 2D talking head animation based on a single input image and an audio stream. Our method first produces facial landmarks motion from the audio stream and constructs the intermediate style patterns from the style reference images. We then feed both outputs into a style-aware image generator to generate the photo-realistic and fidelity 2D animation. In practice, our framework can extract the style information of a specific character and transfer it to any new static image for talking head animation. The intensive experimental results show that our method achieves better results than recent state-of-the-art approaches qualitatively and quantitatively.

arxiv情報

著者 Trong-Thang Pham,Nhat Le,Tuong Do,Hung Nguyen,Erman Tjiputra,Quang D. Tran,Anh Nguyen
発行日 2023-03-22 16:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク