EmoVOCA: Speech-Driven Emotional 3D Talking Heads

要約

3D トーキング ヘッド生成の分野は、近年大幅な進歩を遂げています。
この分野における注目すべき課題は、音声関連の動きと表情のダイナミクスをブレンドすることにあります。これは主に、話し言葉の多様性とさまざまな表情を組み合わせた包括的な 3D データセットが不足していることが原因です。
文献では、回避策として 2D ビデオ データとパラメトリック 3D モデルを活用しようとしていますが、これら 2 つのモーションを共同モデリングする場合には依然として限界があります。
この研究では、この問題に別の観点から取り組み、表現力のない 3D トーキング ヘッドのコレクションと 3D 表現力豊かなシーケンスのセットを組み合わせて得られる、EmoVOCA と呼ばれる合成データセットの作成に使用した革新的なデータ駆動型手法を提案します。

このアプローチの利点とデータセットの品質を実証するために、3D 顔、音声ファイル、感情ラベル、強度値を入力として受け入れ、次のことを学習する感情 3D トーキング ヘッド ジェネレーターを設計してトレーニングしました。
顔の表情豊かな特徴に合わせて、オーディオと同期した唇の動きをアニメーション化します。
当社のデータとジェネレーターを使用した定量的および定性的の両方の包括的な実験は、文献で最もパフォーマンスの高い方法と比較した場合、説得力のあるアニメーションを合成する優れた能力を証明しています。
私たちのコードと事前トレーニングされたモデルが利用可能になります。

要約(オリジナル)

The domain of 3D talking head generation has witnessed significant progress in recent years. A notable challenge in this field consists in blending speech-related motions with expression dynamics, which is primarily caused by the lack of comprehensive 3D datasets that combine diversity in spoken sentences with a variety of facial expressions. Whereas literature works attempted to exploit 2D video data and parametric 3D models as a workaround, these still show limitations when jointly modeling the two motions. In this work, we address this problem from a different perspective, and propose an innovative data-driven technique that we used for creating a synthetic dataset, called EmoVOCA, obtained by combining a collection of inexpressive 3D talking heads and a set of 3D expressive sequences. To demonstrate the advantages of this approach, and the quality of the dataset, we then designed and trained an emotional 3D talking head generator that accepts a 3D face, an audio file, an emotion label, and an intensity value as inputs, and learns to animate the audio-synchronized lip movements with expressive traits of the face. Comprehensive experiments, both quantitative and qualitative, using our data and generator evidence superior ability in synthesizing convincing animations, when compared with the best performing methods in the literature. Our code and pre-trained model will be made available.

arxiv情報

著者 Federico Nocentini,Claudio Ferrari,Stefano Berretti
発行日 2024-09-11 14:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク