MotionMixer: MLP-based 3D Human Body Pose Forecasting

要約

本研究では、多層パーセプトロン(MLP)のみを用いた効率的な3次元人体姿勢予測モデルであるMotionMixerを発表する。MotionMixerは、両モダリティを順次混合することにより、空間的・時間的な3D身体ポーズ依存性を学習する。3D身体ポーズのスタック列が与えられると,空間MLPが身体関節の細かい空間依存性を抽出する.そして、時間的MLPにより、時間経過に伴う身体関節の相互作用をモデル化する。空間的・時間的に混合された特徴は、最終的に集約され、将来の動きを得るために復号化される。ポーズシーケンスにおける各時間ステップの影響を較正するために、我々はスクイーズ・アンド・エキサイトメント(SE)ブロックを利用する。我々は、標準的な評価プロトコルを用いて、Human3.6M、AMASS、3DPWの各データセットで我々のアプローチを評価する。すべての評価において、我々はより少ないパラメータ数のモデルを持ちながら、最先端の性能を実証している。我々のコードは以下のサイトで公開されている:https://github.com/MotionMLP/MotionMixer

要約(オリジナル)

In this work, we present MotionMixer, an efficient 3D human body pose forecasting model based solely on multi-layer perceptrons (MLPs). MotionMixer learns the spatial-temporal 3D body pose dependencies by sequentially mixing both modalities. Given a stacked sequence of 3D body poses, a spatial-MLP extracts fine grained spatial dependencies of the body joints. The interaction of the body joints over time is then modelled by a temporal MLP. The spatial-temporal mixed features are finally aggregated and decoded to obtain the future motion. To calibrate the influence of each time step in the pose sequence, we make use of squeeze-and-excitation (SE) blocks. We evaluate our approach on Human3.6M, AMASS, and 3DPW datasets using the standard evaluation protocols. For all evaluations, we demonstrate state-of-the-art performance, while having a model with a smaller number of parameters. Our code is available at: https://github.com/MotionMLP/MotionMixer

arxiv情報

著者 Arij Bouazizi,Adrian Holzbock,Ulrich Kressel,Klaus Dietmayer,Vasileios Belagiannis
発行日 2022-07-01 15:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク