GFPose: Learning 3D Human Pose Prior with Gradient Fields


人間中心の AI には、人間の 3D ポーズを事前に学習することが不可欠です。
ここでは、さまざまなアプリケーション向けにもっともらしい 3D の人間のポーズをモデル化する汎用フレームワークである GFPose を紹介します。
GFPose の中核となるのは、時間依存のスコア ネットワークです。これは、各ボディ ジョイントの勾配を推定し、与えられたタスク仕様に一致するように摂動した 3D 人間のポーズを徐々にノイズ除去します。
ノイズ除去プロセス中、GFPose は暗黙的にポーズの事前確率を勾配に組み込み、洗練されたフレームワークでさまざまな識別および生成タスクを統合します。
シンプルであるにもかかわらず、GFPose はいくつかのダウンストリーム タスクで大きな可能性を示しています。
私たちの実験は、1) 多仮説姿勢推定器として、GFPose が Human3.6M データセットで既存の SOTA よりも 20% 優れていることを経験的に示しています。
2) 単一仮説ポーズ推定量として、GFPose は、バニラのバックボーンを使用しても、決定論的な SOTA に匹敵する結果を達成します。
3) GFPose は、ポーズのノイズ除去、完成、および生成タスクで、多様でリアルなサンプルを生成できます。


Learning 3D human pose prior is essential to human-centered AI. Here, we present GFPose, a versatile framework to model plausible 3D human poses for various applications. At the core of GFPose is a time-dependent score network, which estimates the gradient on each body joint and progressively denoises the perturbed 3D human pose to match a given task specification. During the denoising process, GFPose implicitly incorporates pose priors in gradients and unifies various discriminative and generative tasks in an elegant framework. Despite the simplicity, GFPose demonstrates great potential in several downstream tasks. Our experiments empirically show that 1) as a multi-hypothesis pose estimator, GFPose outperforms existing SOTAs by 20% on Human3.6M dataset. 2) as a single-hypothesis pose estimator, GFPose achieves comparable results to deterministic SOTAs, even with a vanilla backbone. 3) GFPose is able to produce diverse and realistic samples in pose denoising, completion and generation tasks. Project page


著者 Hai Ci,Mingdong Wu,Wentao Zhu,Xiaoxuan Ma,Hao Dong,Fangwei Zhong,Yizhou Wang
発行日 2022-12-16 18:31:48+00:00
arxivサイト arxiv_id(pdf)

