Unifying Human Motion Synthesis and Style Transfer with Denoising Diffusion Probabilistic Models

要約

デジタル ヒューマンのリアルなモーションを生成することは、コンピューター アニメーションやゲームの中核ですが、人間のモーションはコンテンツが多様であり、スタイルも豊富であるため、難しい部分です。
最新の深層学習アプローチは、この分野で大きな進歩を遂げましたが、ほとんどの場合、モーション合成とスタイル操作を 2 つの別個の問題と見なしています。
これは主に、クラス間の動作を説明するモーション コンテンツと、クラス内の動作を説明するスタイルの両方を共通の表現で効果的に学習するという課題によるものです。
この課題に取り組むために、スタイル付きモーション合成のためのノイズ除去拡散確率モデル ソリューションを提案します。
拡散モデルは確率論の注入によってもたらされる高い容量を持っているため、クラス間の動きの内容とクラス内のスタイルの動作の両方を同じ潜在値で表すことができます。
これにより、統合されたエンドツーエンドのトレーニング済みパイプラインが実現し、最適なモーションの生成と、コンテンツ スタイル結合された潜在空間の探索が容易になります。
高品質の結果を達成するために、ローカル ガイダンスのための人間の動きの側面を戦略的に生成する拡散モデルのマルチタスク アーキテクチャを設計します。
また、グローバルなガイダンスのための敵対的および物理的な規制を設計します。
定量的および定性的な結果で優れたパフォーマンスを実証し、マルチタスク アーキテクチャの有効性を検証します。

要約(オリジナル)

Generating realistic motions for digital humans is a core but challenging part of computer animations and games, as human motions are both diverse in content and rich in styles. While the latest deep learning approaches have made significant advancements in this domain, they mostly consider motion synthesis and style manipulation as two separate problems. This is mainly due to the challenge of learning both motion contents that account for the inter-class behaviour and styles that account for the intra-class behaviour effectively in a common representation. To tackle this challenge, we propose a denoising diffusion probabilistic model solution for styled motion synthesis. As diffusion models have a high capacity brought by the injection of stochasticity, we can represent both inter-class motion content and intra-class style behaviour in the same latent. This results in an integrated, end-to-end trained pipeline that facilitates the generation of optimal motion and exploration of content-style coupled latent space. To achieve high-quality results, we design a multi-task architecture of diffusion model that strategically generates aspects of human motions for local guidance. We also design adversarial and physical regulations for global guidance. We demonstrate superior performance with quantitative and qualitative results and validate the effectiveness of our multi-task architecture.

arxiv情報

著者 Ziyi Chang,Edmund J. C. Findlay,Haozheng Zhang,Hubert P. H. Shum
発行日 2022-12-16 15:15:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク