要約
人間の動作のモデルは、一般的に軌跡の予測か動作の分類のどちらかに焦点を当てるが、両方を行うことは稀である。人間の動作の顕著な異質性と複雑な構成性により、それぞれのタスクは実世界のシナリオに共通するデータの劣化や分布の変化に対して脆弱になる。十分に表現力のある行動の生成モデルがあれば、理論的には両方のタスクに適用可能な統一されたフレームワークの中で、データの調整と分布の回復を可能にすることができる。本論文では、階層的変分オートエンコーダと深層グラフ畳み込みニューラルネットワークに基づき、複数の時間スケールにわたる行動の全体的なモデルを生成するための新しいアーキテクチャを提案する。この階層的グラフ畳み込みオートエンコーダ(HG-VAE)は、モデルの事後分布を勾配的に上昇させることにより、一貫性のある行動の生成、分布外のデータの検出、欠損データの代入が可能であることを示す。H3.6Mとオープンソースの人体運動データの最大コレクションであるAMASSで学習・評価し、HG-VAEがベースラインモデルよりも下流の識別学習を促進できることを示す。
要約(オリジナル)
Models of human motion commonly focus either on trajectory prediction or action classification but rarely both. The marked heterogeneity and intricate compositionality of human motion render each task vulnerable to the data degradation and distributional shift common to real-world scenarios. A sufficiently expressive generative model of action could in theory enable data conditioning and distributional resilience within a unified framework applicable to both tasks. Here we propose a novel architecture based on hierarchical variational autoencoders and deep graph convolutional neural networks for generating a holistic model of action over multiple time-scales. We show this Hierarchical Graph-convolutional Variational Autoencoder (HG-VAE) to be capable of generating coherent actions, detecting out-of-distribution data, and imputing missing data by gradient ascent on the model’s posterior. Trained and evaluated on H3.6M and the largest collection of open source human motion data, AMASS, we show HG-VAE can facilitate downstream discriminative learning better than baseline models.
arxiv情報
著者 | Anthony Bourached,Robert Gray,Xiaodong Guan,Ryan-Rhys Griffiths,Ashwani Jha,Parashkev Nachev |
発行日 | 2022-06-06 22:22:58+00:00 |
arxivサイト | arxiv_id(pdf) |