Dual-stream Transformer-GCN Model with Contextualized Representations Learning for Monocular 3D Human Pose Estimation

要約

このペーパーでは、変圧器GCNデュアルストリームモデルを使用した文脈化された表現学習を使用して、単眼3Dヒトポーズ推定に対する新しいアプローチを紹介します。
単眼3Dのヒトポーズ推定は、深さのあいまいさ、限られた3D標識トレーニングデータ、不均衡なモデリング、および制限されたモデルの一般化によって挑戦されます。
これらの制限に対処するために、私たちの研究では、文脈化された表現学習に基づいて画期的なモーションプリトレーニング方法を導入します。
具体的には、私たちの方法では、2Dポーズ機能をマスキングし、変圧器GCNデュアルストリームモデルを利用して、自己設定セットアップを通じて高次元表現を学習します。
文脈化された表現学習と空間的モデリングに焦点を当てることにより、我々のアプローチは、姿勢間の空間的関係を理解するモデルの能力を高め、優れた一般化をもたらします。
さらに、トランスGCNデュアルストリームモデルを活用すると、このアプローチは、ビデオポーズの推定におけるグローバルな相互作用と局所的な相互作用のバランスを効果的にバランスさせます。
このモデルは、変圧器とGCNの両方のストリームからの情報を適応的に統合し、GCNストリームは隣接するキーポイントとフレーム間のローカルな関係を効果的に学習し、トランスストリームは包括的なグローバルな空間的および時間的機能をキャプチャします。
私たちのモデルは、2つのベンチマークデータセットで最先端のパフォーマンスを実現し、MPJPEは38.0mm、P-MPJPEはHuman 3.6Mで31.9mm、MPI-INF-3DHPで15.9mmのMPJPEが達成されます。
さらに、パブリックデータセットとワイルドビデオでの視覚実験は、アプローチの堅牢性と一般化能力を示しています。

要約(オリジナル)

This paper introduces a novel approach to monocular 3D human pose estimation using contextualized representation learning with the Transformer-GCN dual-stream model. Monocular 3D human pose estimation is challenged by depth ambiguity, limited 3D-labeled training data, imbalanced modeling, and restricted model generalization. To address these limitations, our work introduces a groundbreaking motion pre-training method based on contextualized representation learning. Specifically, our method involves masking 2D pose features and utilizing a Transformer-GCN dual-stream model to learn high-dimensional representations through a self-distillation setup. By focusing on contextualized representation learning and spatial-temporal modeling, our approach enhances the model’s ability to understand spatial-temporal relationships between postures, resulting in superior generalization. Furthermore, leveraging the Transformer-GCN dual-stream model, our approach effectively balances global and local interactions in video pose estimation. The model adaptively integrates information from both the Transformer and GCN streams, where the GCN stream effectively learns local relationships between adjacent key points and frames, while the Transformer stream captures comprehensive global spatial and temporal features. Our model achieves state-of-the-art performance on two benchmark datasets, with an MPJPE of 38.0mm and P-MPJPE of 31.9mm on Human3.6M, and an MPJPE of 15.9mm on MPI-INF-3DHP. Furthermore, visual experiments on public datasets and in-the-wild videos demonstrate the robustness and generalization capabilities of our approach.

arxiv情報

著者 Mingrui Ye,Lianping Yang,Hegui Zhu,Zenghao Zheng,Xin Wang,Yantao Lo
発行日 2025-04-02 14:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク