A generic diffusion-based approach for 3D human pose prediction in the wild

要約

現実世界のシナリオで人間の 3D ポーズを予測すること (人間のポーズ予測とも呼ばれます) は、不正確な 3D ポーズ推定とオクルージョンから生じるノイズの多い入力の影響を必然的に受けます。
これらの課題に対処するために、与えられたノイズの多い観測を予測できる拡散ベースのアプローチを提案します。
予測タスクをノイズ除去問題として組み立てます。ここでは、観測と予測の両方が、欠落している要素を含む単一のシーケンスと見なされます (観測または予測の範囲内にあるかどうか)。
欠落している要素はすべてノイズとして扱われ、条件付き拡散モデルでノイズが除去されます。
長期予測期間をより適切に処理するために、一時的なカスケード拡散モデルを提示します。
公開されている 4 つのデータセット (Human3.6M、HumanEva-I、AMASS、および 3DPW) に対するアプローチの利点を実証し、最先端のパフォーマンスを上回ります。
さらに、私たちのフレームワークは、入力を修復する前処理ステップと出力を調整する後処理ステップとして、3D ポーズ予測モデルを改善するのに十分な汎用性があることを示しています。
コードはオンラインで入手できます: \url{https://github.com/vita-epfl/DePOSit}。

要約(オリジナル)

Predicting 3D human poses in real-world scenarios, also known as human pose forecasting, is inevitably subject to noisy inputs arising from inaccurate 3D pose estimations and occlusions. To address these challenges, we propose a diffusion-based approach that can predict given noisy observations. We frame the prediction task as a denoising problem, where both observation and prediction are considered as a single sequence containing missing elements (whether in the observation or prediction horizon). All missing elements are treated as noise and denoised with our conditional diffusion model. To better handle long-term forecasting horizon, we present a temporal cascaded diffusion model. We demonstrate the benefits of our approach on four publicly available datasets (Human3.6M, HumanEva-I, AMASS, and 3DPW), outperforming the state-of-the-art. Additionally, we show that our framework is generic enough to improve any 3D pose prediction model as a pre-processing step to repair their inputs and a post-processing step to refine their outputs. The code is available online: \url{https://github.com/vita-epfl/DePOSit}.

arxiv情報

著者 Saeed Saadatnejad,Ali Rasekh,Mohammadreza Mofayezi,Yasamin Medghalchi,Sara Rajabzadeh,Taylor Mordan,Alexandre Alahi
発行日 2023-03-15 09:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO パーマリンク