SpeechAct: Towards Generating Whole-body Motion from Speech

要約

この論文は、音声から全身の動きを生成する問題に取り組みます。
大きな成功を収めたにもかかわらず、従来の方法は音声から合理的かつ多様な全身の動きを生成するのに依然として苦労しています。
これは、次善の表現に依存していることと、多様な結果を生成するための戦略が欠如していることが原因です。
これらの課題に対処するために、私たちは、足のスケートを回避するなど、正確かつ連続的なモーション生成を実現する新しいハイブリッド ポイント表現を提示します。この表現は、使いやすい表現、つまり SMPL-X ボディ メッシュに変換できます。
多くのアプリケーション。
オーディオ信号と密接に結びついた顔の動きなど、音声から全身の動きを生成するために、エンコーダ/デコーダ アーキテクチャを導入して決定論的な結果を実現します。
しかし、音声信号とのつながりが弱い身体や手については、多様かつ合理的な動きを生み出すことを目指しています。
モーション生成の多様性を高めるために、モデルがより特徴的な表現を生成することを促す対照的なモーション学習方法を提案します。
具体的には、ハイブリッド表現を使用して量子化されたモーション コードブックを学習するための堅牢な VQ-VAE を設計します。
次に、対比運動学習法を使用した変換モデルによって、オーディオ信号からの運動表現を回帰します。
実験結果により、モデルの優れたパフォーマンスと正確さが検証されました。
プロジェクト ページは、研究目的で http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct から入手できます。

要約(オリジナル)

This paper addresses the problem of generating whole-body motion from speech. Despite great successes, prior methods still struggle to produce reasonable and diverse whole-body motions from speech. This is due to their reliance on suboptimal representations and a lack of strategies for generating diverse results. To address these challenges, we present a novel hybrid point representation to achieve accurate and continuous motion generation, e.g., avoiding foot skating, and this representation can be transformed into an easy-to-use representation, i.e., SMPL-X body mesh, for many applications. To generate whole-body motion from speech, for facial motion, closely tied to the audio signal, we introduce an encoder-decoder architecture to achieve deterministic outcomes. However, for the body and hands, which have weaker connections to the audio signal, we aim to generate diverse yet reasonable motions. To boost diversity in motion generation, we propose a contrastive motion learning method to encourage the model to produce more distinctive representations. Specifically, we design a robust VQ-VAE to learn a quantized motion codebook using our hybrid representation. Then, we regress the motion representation from the audio signal by a translation model employing our contrastive motion learning method. Experimental results validate the superior performance and the correctness of our model. The project page is available for research purposes at http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct.

arxiv情報

著者 Jinsong Zhang,Minjie Zhu,Yuxiang Zhang,Yebin Liu,Kun Li
発行日 2024-01-24 12:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク