AMPose: Alternately Mixed Global-Local Attention Model for 3D Human Pose Estimation

要約

グラフ畳み込みネットワーク (GCN) は、3D 人間姿勢推定 (HPE) のために人間の関節間の物理的に接続された非局所的な関係をモデル化するために適用されています。
さらに、純粋に Transformer ベースのモデルは最近、ビデオベースの 3D HPE で有望な結果を示しています。
ただし、シングルフレーム法では、Transformer を介してグローバルな関係のみによって変換されるフィーチャ表現では人間の骨格に関する情報が無視されるため、関節間の物理的な接続関係をモデル化する必要があります。
この問題に対処するために、我々は、Transformer エンコーダと GCN ブロックを交互にスタックする新しい方法、つまり AMPose を提案し、HPE に向けたジョイント間のグローバルで物理的に接続された関係を結合します。
AMPose では、Transformer エンコーダが各ジョイントを他のすべてのジョイントに接続するために適用され、GCN が物理的に接続された関係に関する情報をキャプチャするために適用されます。
提案手法の有効性はHuman3.6Mデータセット上で評価されます。
私たちのモデルは、MPI-INF-3DHP データセットでテストすることにより、より優れた一般化能力も示しています。
コードは https://github.com/erikervalid/AMPose で取得できます。

要約(オリジナル)

The graph convolutional networks (GCNs) have been applied to model the physically connected and non-local relations among human joints for 3D human pose estimation (HPE). In addition, the purely Transformer-based models recently show promising results in video-based 3D HPE. However, the single-frame method still needs to model the physically connected relations among joints because the feature representations transformed only by global relations via the Transformer neglect information on the human skeleton. To deal with this problem, we propose a novel method in which the Transformer encoder and GCN blocks are alternately stacked, namely AMPose, to combine the global and physically connected relations among joints towards HPE. In the AMPose, the Transformer encoder is applied to connect each joint with all the other joints, while GCNs are applied to capture information on physically connected relations. The effectiveness of our proposed method is evaluated on the Human3.6M dataset. Our model also shows better generalization ability by testing on the MPI-INF-3DHP dataset. Code can be retrieved at https://github.com/erikervalid/AMPose.

arxiv情報

著者 Hongxin Lin,Yunwei Chiu,Peiyuan Wu
発行日 2023-10-31 12:46:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク