要約
この論文では、歴史的に観察されたシーケンスから将来の身体の姿勢を予測することからなる、人間の動きの予測の問題に取り組みます。
最先端のアプローチは良い結果をもたらしますが、リカレント ニューラル ネットワーク (RNN)、トランスフォーマー、グラフ畳み込みネットワーク (GCN) などの任意の複雑さのディープ ラーニング アーキテクチャに依存しており、通常は複数のトレーニング ステージとそれ以上のトレーニングが必要です。
200 万のパラメータ。
この論文では、離散コサイン変換 (DCT) の適用、関節の残留変位の予測、補助損失としての速度の最適化など、一連の標準的な手法と組み合わせた後、マルチレイヤーに基づく軽量ネットワークを示します。
わずか 14 万個のパラメーターを持つパーセプトロン (MLP) は、最先端のパフォーマンスを超えることができます。
Human3.6M、AMASS、および 3DPW データセットの徹底的な評価は、siMLPe と名付けられた私たちの方法が一貫して他のすべてのアプローチよりも優れていることを示しています。
私たちの単純な方法がコミュニティの強力なベースラインとして機能し、人間の動きの予測の問題を再考できるようになることを願っています。
コードは \url{https://github.com/dulucas/siMLPe} で公開されています。
要約(オリジナル)
This paper tackles the problem of human motion prediction, consisting in forecasting future body poses from historically observed sequences. State-of-the-art approaches provide good results, however, they rely on deep learning architectures of arbitrary complexity, such as Recurrent Neural Networks(RNN), Transformers or Graph Convolutional Networks(GCN), typically requiring multiple training stages and more than 2 million parameters. In this paper, we show that, after combining with a series of standard practices, such as applying Discrete Cosine Transform(DCT), predicting residual displacement of joints and optimizing velocity as an auxiliary loss, a light-weight network based on multi-layer perceptrons(MLPs) with only 0.14 million parameters can surpass the state-of-the-art performance. An exhaustive evaluation on the Human3.6M, AMASS, and 3DPW datasets shows that our method, named siMLPe, consistently outperforms all other approaches. We hope that our simple method could serve as a strong baseline for the community and allow re-thinking of the human motion prediction problem. The code is publicly available at \url{https://github.com/dulucas/siMLPe}.
arxiv情報
著者 | Wen Guo,Yuming Du,Xi Shen,Vincent Lepetit,Xavier Alameda-Pineda,Francesc Moreno-Noguer |
発行日 | 2022-08-25 17:59:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google