VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

要約

VASA は、単一の静止画像とスピーチ オーディオ クリップを与えられて、魅力的な視覚的感情スキル (VAS) を備えた本物のような話し顔を生成するためのフレームワークです。
当社のプレミア モデル VASA-1 は、オーディオと絶妙に同期した唇の動きを生成するだけでなく、真正性と生き生きとした認識に貢献する顔のニュアンスや自然な頭の動きを広範囲にキャプチャすることができます。
核となるイノベーションには、顔の潜在空間で機能する全体的な顔のダイナミクスと頭部の動きの生成モデル、およびビデオを使用したそのような表現力豊かでもつれの解けた顔の潜在空間の開発が含まれます。
一連の新しい指標の評価を含む広範な実験を通じて、私たちの方法がさまざまな側面で包括的に以前の方法を大幅に上回ることを示します。
私たちの方法は、リアルな顔と頭のダイナミクスを備えた高品質のビデオを提供するだけでなく、無視できる開始遅延で最大 40 FPS での 512×512 ビデオのオンライン生成もサポートします。
これにより、人間の会話行動をエミュレートする実物そっくりのアバターとのリアルタイムのやり取りへの道が開かれます。

要約(オリジナル)

We introduce VASA, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, VASA-1, is capable of not only producing lip movements that are exquisitely synchronized with the audio, but also capturing a large spectrum of facial nuances and natural head motions that contribute to the perception of authenticity and liveliness. The core innovations include a holistic facial dynamics and head movement generation model that works in a face latent space, and the development of such an expressive and disentangled face latent space using videos. Through extensive experiments including evaluation on a set of new metrics, we show that our method significantly outperforms previous methods along various dimensions comprehensively. Our method not only delivers high video quality with realistic facial and head dynamics but also supports the online generation of 512×512 videos at up to 40 FPS with negligible starting latency. It paves the way for real-time engagements with lifelike avatars that emulate human conversational behaviors.

arxiv情報

著者 Sicheng Xu,Guojun Chen,Yu-Xiao Guo,Jiaolong Yang,Chong Li,Zhenyu Zang,Yizhong Zhang,Xin Tong,Baining Guo
発行日 2024-04-16 15:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク