Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation

要約

この論文では、GENEA (身体エージェントのための非言語行動の生成と評価) チャレンジ 2023 のために開発されたシステムについて説明します。私たちのソリューションは、既存の拡散ベースのモーション合成モデルに基づいて構築されています。
我々は、これらのモダリティ間の意味論的な結合を学習することを目的として、音声とジェスチャの結合埋め込みを学習する対照的音声と動作事前トレーニング (CSMP) モジュールを提案します。
CSMP モジュールの出力は、意味を意識した同時音声ジェスチャ生成を実現するために、拡散ベースのジェスチャ合成モデルの条件付け信号として使用されます。
私たちの作品は、提出された作品の中で最高の人間らしさとスピーチの適切性の評価を獲得しました。
これは、私たちのシステムが、意味論的な意味を持つエージェントで人間のような共同音声ジェスチャーを実現するための有望なアプローチであることを示しています。

要約(オリジナル)

This paper describes a system developed for the GENEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challenge 2023. Our solution builds on an existing diffusion-based motion synthesis model. We propose a contrastive speech and motion pretraining (CSMP) module, which learns a joint embedding for speech and gesture with the aim to learn a semantic coupling between these modalities. The output of the CSMP module is used as a conditioning signal in the diffusion-based gesture synthesis model in order to achieve semantically-aware co-speech gesture generation. Our entry achieved highest human-likeness and highest speech appropriateness rating among the submitted entries. This indicates that our system is a promising approach to achieve human-like co-speech gestures in agents that carry semantic meaning.

arxiv情報

著者 Anna Deichler,Shivam Mehta,Simon Alexanderson,Jonas Beskow
発行日 2023-09-11 13:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T42, cs.HC, cs.LG, cs.SD, eess.AS, I.2.6 パーマリンク