HopFIR: Hop-wise GraphFormer with Intragroup Joint Refinement for 3D Human Pose Estimation

要約

2D から 3D への人間の姿勢リフティングは、3D 人間の姿勢推定 (HPE) の基礎です。
グラフ畳み込みネットワーク (GCN) は、人間の骨格トポロジーのモデル化に本質的に適していることが証明されています。
ただし、現在の GCN ベースの 3D HPE メソッドは、さまざまな動作パターンにおける関節の相互作用を考慮せずに、隣接するノードの情報を集約することによってノードの特徴を更新します。
動きのパターンを学習するために手足の情報をインポートする研究もありますが、動きのバランスの維持など、関節間の潜在的な相乗効果が調査されることはほとんどありません。
3D HPE 問題に取り組むために、グループ内結合改良 (HopFIR) を備えたホップ単位の GraphFormer を提案します。
HopFIR は主に、新しい Hop-wise GraphFormer(HGF) モジュールと、末梢関節リファインメントに事前の四肢情報を活用する Intragroup Joint Refinement(IJR) モジュールで構成されています。
HGF モジュールは、ジョイントを $k$ ホップ近傍ごとにグループ化し、これらのグループ間でホップ単位のトランスフォーマーのような注意メカニズムを利用して、潜在的なジョイントの相乗効果を発見します。
広範な実験結果は、HopFIR が SOTA 法よりも大きなマージンで優れていることを示しています (Human3.6M データセットでは、平均関節位置誤差 (MPJPE) は 32.67mm です)。
さらに、以前の SOTA GCN ベースの方法は、SemGCN と MGCN がそれぞれ 8.9% と 4.5% 向上するなど、大幅なパフォーマンス向上により、提案されたホップワイズ アテンション メカニズムから効率的に恩恵を受けることができることも実証されています。

要約(オリジナル)

2D-to-3D human pose lifting is fundamental for 3D human pose estimation (HPE). Graph Convolutional Network (GCN) has been proven inherently suitable to model the human skeletal topology. However, current GCN-based 3D HPE methods update the node features by aggregating their neighbors’ information without considering the interaction of joints in different motion patterns. Although some studies import limb information to learn the movement patterns, the latent synergies among joints, such as maintaining balance in the motion are seldom investigated. We propose a hop-wise GraphFormer with intragroup joint refinement (HopFIR) to tackle the 3D HPE problem. The HopFIR mainly consists of a novel Hop-wise GraphFormer(HGF) module and an Intragroup Joint Refinement(IJR) module which leverages the prior limb information for peripheral joints refinement. The HGF module groups the joints by $k$-hop neighbors and utilizes a hop-wise transformer-like attention mechanism among these groups to discover latent joint synergy. Extensive experimental results show that HopFIR outperforms the SOTA methods with a large margin (on the Human3.6M dataset, the mean per joint position error (MPJPE) is 32.67mm). Furthermore, it is also demonstrated that previous SOTA GCN-based methods can benefit from the proposed hop-wise attention mechanism efficiently with significant performance promotion, such as SemGCN and MGCN are improved by 8.9% and 4.5%, respectively.

arxiv情報

著者 Kai Zhai,Qiang Nie,Bo Ouyang,Xiang Li,ShanLin Yang
発行日 2023-07-18 16:07:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク