FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models


3D Human Pose Estimation (3D HPE) タスクは、2D 画像またはビデオを使用して、3D 空間内の人間の関節座標を予測します。
深層学習ベースの手法の最近の進歩にも関わらず、それらはアクセス可能なテキストと人間の自然に実行可能な知識を結合する機能をほとんど無視しており、3D HPE タスクをガイドするための貴重な暗黙的な監視を見逃しています。
この目的を達成するために、\textbf{FinePOSE} という名前の、3D HPE の拡散モデルに基づく新しいファイングレイン プロンプト駆動型デノイザーを紹介します。
これは、拡散モデルの逆プロセスを強化する 3 つのコア ブロックで構成されます。 (1) きめの細かい部分認識プロンプト学習 (FPP) ブロックは、アクセス可能なテキストと体の部分に関する自然に実現可能な知識を結合することにより、きめの細かい部分認識プロンプトを構築します。
(2) きめの細かいプロンプトポーズ通信 (FPC) ブロックは、学習された部分認識プロンプトとポーズの間のきめの細かい通信を確立し、ノイズ除去の品質を向上させます。
(3) プロンプト駆動のタイムスタンプ スタイライゼーション (PTS) ブロックは、学習されたプロンプトの埋め込みとノイズ レベルに関連する時間情報を統合し、各ノイズ除去ステップでの適応調整を可能にします。
公開されている 1 人の人間の姿勢推定データセットに対する広範な実験により、FinePOSE が最先端の方法よりも優れていることが示されています。
FinePOSE を複数人の姿勢推定にさらに拡張します。
EgoHumans データセットで平均 34.3 mm MPJPE を達成したことは、FinePOSE が複雑な複数の人間のシナリオに対処できる可能性を示しています。
コードは で入手できます。


The 3D Human Pose Estimation (3D HPE) task uses 2D images or videos to predict human joint coordinates in 3D space. Despite recent advancements in deep learning-based methods, they mostly ignore the capability of coupling accessible texts and naturally feasible knowledge of humans, missing out on valuable implicit supervision to guide the 3D HPE task. Moreover, previous efforts often study this task from the perspective of the whole human body, neglecting fine-grained guidance hidden in different body parts. To this end, we present a new Fine-Grained Prompt-Driven Denoiser based on a diffusion model for 3D HPE, named \textbf{FinePOSE}. It consists of three core blocks enhancing the reverse process of the diffusion model: (1) Fine-grained Part-aware Prompt learning (FPP) block constructs fine-grained part-aware prompts via coupling accessible texts and naturally feasible knowledge of body parts with learnable prompts to model implicit guidance. (2) Fine-grained Prompt-pose Communication (FPC) block establishes fine-grained communications between learned part-aware prompts and poses to improve the denoising quality. (3) Prompt-driven Timestamp Stylization (PTS) block integrates learned prompt embedding and temporal information related to the noise level to enable adaptive adjustment at each denoising step. Extensive experiments on public single-human pose estimation datasets show that FinePOSE outperforms state-of-the-art methods. We further extend FinePOSE to multi-human pose estimation. Achieving 34.3mm average MPJPE on the EgoHumans dataset demonstrates the potential of FinePOSE to deal with complex multi-human scenarios. Code is available at


著者 Jinglin Xu,Yijie Guo,Yuxin Peng
発行日 2024-05-08 17:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク