PoseGRAF: Geometric-Reinforced Adaptive Fusion for Monocular 3D Human Pose Estimation

要約

既存の単眼3Dポーズ推定方法は、主に関節の位置の特徴に依存していますが、骨格内の固有の方向性と角度相関を見下ろしています。
その結果、彼らはしばしば関節閉塞または急速な動きの変化の下で信じられないポーズを生成します。
これらの課題に対処するために、ポセグラフフレームワークを提案します。
まず、ジョイントグラフと骨グラフを個別に処理し、ローカル依存関係を効果的にキャプチャするデュアルグラフ畳み込み構造を構築します。
次に、骨の方向と関節の特徴の間のモデルの相互依存関係をモデル化するために、クロスアテンションモジュールが導入されます。
これに基づいて、動的融合モジュールは、ジョイントと骨の間のリレーショナル依存性を活用することにより、両方の特徴を適応的に統合するように設計されています。
改良されたトランスエンコーダーは、最終出力を生成するために残りの方法でさらに組み込まれます。
Human3.6MおよびMPI-INF-3DHPデータセットの実験結果は、この方法が最先端のアプローチを超えていることを示しています。
野生のビデオでの追加の評価は、その一般化可能性をさらに検証します。
このコードは、https://github.com/icitylab/posegrafで公開されています。

要約(オリジナル)

Existing monocular 3D pose estimation methods primarily rely on joint positional features, while overlooking intrinsic directional and angular correlations within the skeleton. As a result, they often produce implausible poses under joint occlusions or rapid motion changes. To address these challenges, we propose the PoseGRAF framework. We first construct a dual graph convolutional structure that separately processes joint and bone graphs, effectively capturing their local dependencies. A Cross-Attention module is then introduced to model interdependencies between bone directions and joint features. Building upon this, a dynamic fusion module is designed to adaptively integrate both feature types by leveraging the relational dependencies between joints and bones. An improved Transformer encoder is further incorporated in a residual manner to generate the final output. Experimental results on the Human3.6M and MPI-INF-3DHP datasets show that our method exceeds state-of-the-art approaches. Additional evaluations on in-the-wild videos further validate its generalizability. The code is publicly available at https://github.com/iCityLab/PoseGRAF.

arxiv情報

著者 Ming Xu,Xu Zhang
発行日 2025-06-17 14:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク