AMPose: Alternatively Mixed Global-Local Attention Model for 3D Human Pose Estimation

要約

グラフ畳み込みネットワーク (GCN) は、3D 人間の姿勢推定 (HPE) に適用されています。
さらに、純粋な変圧器モデルは最近、ビデオベースの方法で有望な結果を示しています。
ただし、グローバルな注意によってのみ変換される特徴表現には人間の骨格の関係が欠けているため、単一フレームの方法では、関節間の物理的に接続された関係をモデル化する必要があります。
この問題に対処するために、人間の骨格の関節間の物理的に接続されたグローバルな関係を組み合わせて、人間の姿勢推定に向けた新しいアーキテクチャ、つまり AMPose を提案します。
提案手法の有効性は、Human3.6M データセットの評価を通じて実証されています。
私たちのモデルは、MPI-INF-3DHP でのデータセット間の比較により、より優れた一般化能力も示しています。

要約(オリジナル)

The graph convolutional network (GCN) has been applied to 3D human pose estimation (HPE). In addition, the pure transformer model recently shows promising results in the video-based method. However, the single-frame method still needs to model the physically connected relations among joints because the feature representation transformed only by global attention lack the relationships of the human skeleton. To deal with this problem, we propose a novel architecture, namely AMPose, to combine the physically connected and global relations among joints in the human skeleton towards human pose estimation. The effectiveness of our proposed method is demonstrated through evaluation on Human3.6M dataset. Our model also shows better generalization ability by cross-dataset comparison on MPI-INF-3DHP.

arxiv情報

著者 Hongxin Lin,Yunwei Chiu,Peiyuan Wu
発行日 2022-10-26 14:48:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク