GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation

要約

最新の多層パーセプトロン (MLP) モデルは、自己注意なしで視覚的表現を学習する際に競争力のある結果を示しています。
ただし、既存の MLP モデルは、局所的な詳細をキャプチャするのが苦手で、人体の構成に関する事前知識が不足しているため、骨格表現学習のモデリング能力が制限されています。
これらの問題に対処するために、GraphMLP という名前のシンプルで効果的なグラフ強化 MLP のようなアーキテクチャを提案します。これは、MLP とグラフ畳み込みネットワーク (GCN) をグローバル – ローカル – グラフィカル統合アーキテクチャで組み合わせて、3D 人間の姿勢を推定します。
GraphMLP は、人体のグラフ構造を MLP モデルに組み込み、3D 人間のポーズのドメイン固有の要求を満たすと同時に、ローカルおよびグローバルの両方の空間相互作用を可能にします。
さらに、GraphMLP をビデオ ドメインに柔軟かつ効率的に拡張することを提案し、複雑な時間的ダイナミクスを簡単な方法で効果的にモデル化できることを示します。シーケンス長の計算コストは​​無視できます。
私たちの知る限り、これは 1 つのフレームとビデオ シーケンスで 3D 人間の姿勢を推定するための最初の MLP のようなアーキテクチャです。
広範な実験により、提案された GraphMLP が 2 つのデータセット、つまり Human3.6M と MPI-INF-3DHP で最先端のパフォーマンスを達成することが示されています。
私たちのソースコードはオープンソースになります。

要約(オリジナル)

Modern multi-layer perceptron (MLP) models have shown competitive results in learning visual representations without self-attention. However, existing MLP models are not good at capturing local details and lack prior knowledge of human body configurations, which limits their modeling power for skeletal representation learning. To address these issues, we propose a simple yet effective graph-reinforced MLP-Like architecture, named GraphMLP, that combines MLPs and graph convolutional networks (GCNs) in a global-local-graphical unified architecture for 3D human pose estimation. GraphMLP incorporates the graph structure of human bodies into an MLP model to meet the domain-specific demand of the 3D human pose, while allowing for both local and global spatial interactions. Furthermore, we propose to flexibly and efficiently extend the GraphMLP to the video domain and show that complex temporal dynamics can be effectively modeled in a simple way with negligible computational cost gains in the sequence length. To the best of our knowledge, this is the first MLP-Like architecture for 3D human pose estimation in a single frame and a video sequence. Extensive experiments show that the proposed GraphMLP achieves state-of-the-art performance on two datasets, i.e., Human3.6M and MPI-INF-3DHP. Our source code will be open-sourced.

arxiv情報

著者 Wenhao Li,Hong Liu,Tianyu Guo,Hao Tang,Runwei Ding
発行日 2022-09-01 07:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク