要約
スピーチを使用したポートレートのアニメーション化は、近年注目を集めており、さまざまな創造的かつ実用的なユースケースがあります。
理想的な生成ビデオは、音声との良好なリップ シンク、自然な顔の表情と頭の動き、および高いフレーム品質を備えている必要があります。
この作品では、音声と単一の画像を使用して、運転ビデオを必要とせずに、リアルな頭のポーズを備えた高解像度で表現力豊かなビデオを生成する SPACEx を紹介します。
顔のランドマークの制御性と、事前トレーニング済みの顔ジェネレーターの高品質な合成能力を組み合わせた、多段階のアプローチを使用します。
SPACEx は、感情とその強さの制御も可能にします。
私たちの方法は、画質と顔の動きの客観的な指標において以前の方法よりも優れており、ペアワイズ比較でユーザーに強く好まれています。
プロジェクトのウェブサイトは https://deepimagination.cc/SPACEx/ にあります。
要約(オリジナル)
Animating portraits using speech has received growing attention in recent years, with various creative and practical use cases. An ideal generated video should have good lip sync with the audio, natural facial expressions and head motions, and high frame quality. In this work, we present SPACEx, which uses speech and a single image to generate high-resolution, and expressive videos with realistic head pose, without requiring a driving video. It uses a multi-stage approach, combining the controllability of facial landmarks with the high-quality synthesis power of a pretrained face generator. SPACEx also allows for the control of emotions and their intensities. Our method outperforms prior methods in objective metrics for image quality and facial motions and is strongly preferred by users in pair-wise comparisons. The project website is available at https://deepimagination.cc/SPACEx/
arxiv情報
著者 | Siddharth Gururani,Arun Mallya,Ting-Chun Wang,Rafael Valle,Ming-Yu Liu |
発行日 | 2022-11-17 18:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google