GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation

要約

タイトル:3D人間姿勢推定のためのグラフMLP:3D Human Pose EstimationのためのグラフMLPのようなアーキテクチャ

要約:
– 現代のマルチレイヤーパーセプトロン(MLP)モデルは、自己注意を必要とせずに視覚的表現を学習することで競争力のある結果を示しています。
– しかし、既存のMLPモデルは、局所的な詳細を捉えることができず、人体構造の事前知識が欠如しているため、骨格表現学習のモデリング能力が制限されています。
– これらの問題に対処するために、3D人間姿勢推定のためのグローバルローカルグラフ統一アーキテクチャを組み合わせた、グラフ強化されたMLPのようなシンプルで効果的なアーキテクチャ、GraphMLPを提案しています。
– GraphMLPは、人体のグラフ構造をMLPモデルに組み込み、3D人間姿勢のドメイン固有の要求を満たしながら、局所的、グローバルな空間相互作用を両立させます。
– さらに、GraphMLPを柔軟かつ効率的にビデオドメインに拡張し、複雑な時間的ダイナミクスを単純な方法で効果的にモデル化できることを示し、シーケンス長でほとんど計算コストの増加がないことを示します。
– ベストプラクティスによると、これはシングルフレームとビデオシーケンスの3D人間姿勢推定のための最初のMLP-Likeアーキテクチャです。
– 広範な実験により、提案されたGraphMLPが2つのデータセット、すなわちHuman3.6MとMPI-INF-3DHPで最先端の性能を発揮することが示されています。
– コードとモデルはhttps://github.com/Vegetebird/GraphMLPで利用可能です。

要約(オリジナル)

Modern multi-layer perceptron (MLP) models have shown competitive results in learning visual representations without self-attention. However, existing MLP models are not good at capturing local details and lack prior knowledge of human body configurations, which limits their modeling power for skeletal representation learning. To address these issues, we propose a simple yet effective graph-reinforced MLP-Like architecture, named GraphMLP, that combines MLPs and graph convolutional networks (GCNs) in a global-local-graphical unified architecture for 3D human pose estimation. GraphMLP incorporates the graph structure of human bodies into an MLP model to meet the domain-specific demand of the 3D human pose, while allowing for both local and global spatial interactions. Furthermore, we propose to flexibly and efficiently extend the GraphMLP to the video domain and show that complex temporal dynamics can be effectively modeled in a simple way with negligible computational cost gains in the sequence length. To the best of our knowledge, this is the first MLP-Like architecture for 3D human pose estimation in a single frame and a video sequence. Extensive experiments show that the proposed GraphMLP achieves state-of-the-art performance on two datasets, i.e., Human3.6M and MPI-INF-3DHP. Code and models are available at https://github.com/Vegetebird/GraphMLP.

arxiv情報

著者 Wenhao Li,Hong Liu,Tianyu Guo,Runwei Ding,Hao Tang
発行日 2023-04-21 13:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク