Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models

要約

拡散モデルは、表現力が高く、効率的にトレーニングできる確率モデルとして注目が高まっています。
我々は、これらのモデルが、音声と同時発生する人間の動き(例えば、ダンスや音声のジェスチャーなど)を合成するのに非常に適していることを示します。これは、音声が与えられた場合、動きは複雑で非常に曖昧であり、確率的な記述が必要であるためです。
具体的には、DiffWave アーキテクチャを 3D ポーズ シーケンスのモデル化に適応させ、拡張畳み込みの代わりに Conformers を配置してモデリング能力を向上させます。
また、分類子を使用しないガイダンスを使用してスタイル表現の強さを調整する、モーション スタイルの制御も示します。
ジェスチャーとダンスの生成に関する実験により、提案された方法が、表現を多かれ少なかれ顕著にすることができる独特のスタイルを備えた、最高級のモーション品質を達成することが確認されました。
また、同じモデル アーキテクチャを使用してパス駆動の移動運動も合成します。
最後に、拡散モデルの専門家の成果アンサンブルを取得するためのガイダンス手順を一般化し、これらが独立して興味深いと思われる貢献であるスタイル補間などにどのように使用できるかを示します。
ビデオの例、データ、コードについては、https://www.speech.kth.se/research/listen-denoise-action/ を参照してください。

要約(オリジナル)

Diffusion models have experienced a surge of interest as highly expressive yet efficiently trainable probabilistic models. We show that these models are an excellent fit for synthesising human motion that co-occurs with audio, e.g., dancing and co-speech gesticulation, since motion is complex and highly ambiguous given audio, calling for a probabilistic description. Specifically, we adapt the DiffWave architecture to model 3D pose sequences, putting Conformers in place of dilated convolutions for improved modelling power. We also demonstrate control over motion style, using classifier-free guidance to adjust the strength of the stylistic expression. Experiments on gesture and dance generation confirm that the proposed method achieves top-of-the-line motion quality, with distinctive styles whose expression can be made more or less pronounced. We also synthesise path-driven locomotion using the same model architecture. Finally, we generalise the guidance procedure to obtain product-of-expert ensembles of diffusion models and demonstrate how these may be used for, e.g., style interpolation, a contribution we believe is of independent interest. See https://www.speech.kth.se/research/listen-denoise-action/ for video examples, data, and code.

arxiv情報

著者 Simon Alexanderson,Rajmund Nagy,Jonas Beskow,Gustav Eje Henter
発行日 2023-05-16 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, cs.GR, cs.HC, cs.LG, cs.SD, eess.AS, G.3 パーマリンク