要約
音声から 3D 人間のジェスチャーを合成する既存の方法は有望な結果を示していますが、生成されたジェスチャーに対する感情の影響を明示的にモデル化していません。
代わりに、これらの方法は、表現された感情を制御することなく、音声からアニメーションを直接出力します。
この制限に対処するために、潜在拡散に基づいた感情的な音声駆動の身体アニメーション モデルである AMUSE を紹介します。
私たちの観察によると、内容(つまり、スピーチのリズムや単語の発話に関連するジェスチャー)、感情、および個人のスタイルは分離可能です。
これを考慮して、AMUSE は走行オーディオを 3 つの解きほぐされた潜在ベクトル (コンテンツ、感情、個人のスタイル) にマップします。
ジェスチャ モーション シーケンスを生成するようにトレーニングされた潜在拡散モデルは、これらの潜在ベクトルに基づいて条件付けされます。
トレーニングが完了すると、AMUSE は、運転中の音声の内容と別の音声シーケンスの感情やスタイルを組み合わせて、表現された感情やスタイルを制御しながら、音声から直接 3D 人間のジェスチャーを合成します。
拡散モデルのノイズをランダムにサンプリングすると、同じ感情表現を持つジェスチャーのバリエーションがさらに生成されます。
定性的、定量的、および知覚的な評価は、AMUSE が現実的なジェスチャ シーケンスを出力することを示しています。
最新技術と比較して、生成されたジェスチャは音声内容とよりよく同期し、入力音声によって表現される感情をよりよく表現します。
私たちのプロジェクトのウェブサイトは amuse.is.tue.mpg.de です。
要約(オリジナル)
Existing methods for synthesizing 3D human gestures from speech have shown promising results, but they do not explicitly model the impact of emotions on the generated gestures. Instead, these methods directly output animations from speech without control over the expressed emotion. To address this limitation, we present AMUSE, an emotional speech-driven body animation model based on latent diffusion. Our observation is that content (i.e., gestures related to speech rhythm and word utterances), emotion, and personal style are separable. To account for this, AMUSE maps the driving audio to three disentangled latent vectors: one for content, one for emotion, and one for personal style. A latent diffusion model, trained to generate gesture motion sequences, is then conditioned on these latent vectors. Once trained, AMUSE synthesizes 3D human gestures directly from speech with control over the expressed emotions and style by combining the content from the driving speech with the emotion and style of another speech sequence. Randomly sampling the noise of the diffusion model further generates variations of the gesture with the same emotional expressivity. Qualitative, quantitative, and perceptual evaluations demonstrate that AMUSE outputs realistic gesture sequences. Compared to the state of the art, the generated gestures are better synchronized with the speech content and better represent the emotion expressed by the input speech. Our project website is amuse.is.tue.mpg.de.
arxiv情報
著者 | Kiran Chhatre,Radek Daněček,Nikos Athanasiou,Giorgio Becherini,Christopher Peters,Michael J. Black,Timo Bolkart |
発行日 | 2023-12-07 17:39:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google