Learning Disentangled Representations for Controllable Human Motion Prediction

要約

近年、生成モデルを用いた運動予測技術により、複数の上半身の運動を類似した下半身の運動で予測するなど、制御された人間の運動を予測することが実現されている。しかし、これを実現するためには、類似した運動を求めるためのマッピング関数を後から学習するか、あるいは、目的の部位の制御を可能にするためにモデルを繰り返し学習することが必要であった。本論文では、制御可能な人体運動予測のために、分離された表現を学習する新しい枠組みを提案する。本ネットワークは、全身運動をモデル化する条件付き変分オートエンコーダ(CVAE)アーキテクチャと、対応する部分運動(例えば、下半身)のみを学習する追加のCVAE経路を含む。具体的には、余分なCVAE経路によって課される帰納的バイアスは、2つの経路における2つの潜在変数が、それぞれの部分的な身体運動に対して別々の表現をそれぞれ支配するように促します。一度の学習で、本モデルは生成された人体運動に対して、一対の潜在空間からのサンプリングにより、(i)人体の一部分を厳密に制御し、(ii)他の部分を適応的に制御するという2種類の制御を提供することが可能である。さらに、制御可能な予測値を多様化するために、学習済みモデルにサンプリング戦略を拡張・適応する。また、本フレームワークは、余分なCVAE経路の入力を柔軟にカスタマイズすることで、新たな制御形態を可能にする可能性がある。広範な実験結果とアブレーション研究により、我々のアプローチが質的にも量的にも最先端の制御可能な人間の動作を予測できることを実証する。

要約(オリジナル)

Generative model-based motion prediction techniques have recently realized predicting controlled human motions, such as predicting multiple upper human body motions with similar lower-body motions. However, to achieve this, the state-of-the-art methods require either subsequently learning mapping functions to seek similar motions or training the model repetitively to enable control over the desired portion of body. In this paper, we propose a novel framework to learn disentangled representations for controllable human motion prediction. Our network involves a conditional variational auto-encoder (CVAE) architecture to model full-body human motion, and an extra CVAE path to learn only the corresponding partial-body (e.g., lower-body) motion. Specifically, the inductive bias imposed by the extra CVAE path encourages two latent variables in two paths to respectively govern separate representations for each partial-body motion. With a single training, our model is able to provide two types of controls for the generated human motions: (i) strictly controlling one portion of human body and (ii) adaptively controlling the other portion, by sampling from a pair of latent spaces. Additionally, we extend and adapt a sampling strategy to our trained model to diversify the controllable predictions. Our framework also potentially allows new forms of control by flexibly customizing the input for the extra CVAE path. Extensive experimental results and ablation studies demonstrate that our approach is capable of predicting state-of-the-art controllable human motions both qualitatively and quantitatively.

arxiv情報

著者 Chunzhi Gu,Jun Yu,Chao Zhang
発行日 2022-07-04 13:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク