A generic diffusion-based approach for 3D human pose prediction in the wild

要約

人間の 3D 姿勢予測、つまり、過去に観測された一連の人間の 3D 姿勢を考慮して、将来の人間の 3D 姿勢のシーケンスを予測することは、困難な時空間タスクです。
オクルージョンが必然的に発生し、ジョイントの推定 3D 座標にノイズが含まれる現実世界のアプリケーションでは、より困難になる可能性があります。
不完全な要素 (予測または観測に関係なく) がノイズとして扱われる統一された定式化を提供し、それらのノイズを除去してもっともらしいポーズを予測する条件付き拡散モデルを提案します。
将来のすべてのフレームを単純に一度に予測する代わりに、私たちのモデルは 2 つのカスケード サブモデルで構成され、それぞれが短期および長期のホライズン分布のモデル化に特化しています。
また、入力を修復する前処理ステップと出力を調整する後処理ステップの 2 つの追加ステップで拡散モデルを活用することにより、3D ポーズ予測モデルを改善するための一般的なフレームワークも提案します。
4 つの標準データセット (Human3.6M、HumanEva-I、AMASS、および 3DPW) に関する調査結果を調査し、最先端技術を大幅に改善しました。
コードはオンラインで公開されます。

要約(オリジナル)

3D human pose forecasting, i.e., predicting a sequence of future human 3D poses given a sequence of past observed ones, is a challenging spatio-temporal task. It can be more challenging in real-world applications where occlusions will inevitably happen, and estimated 3D coordinates of joints would contain some noise. We provide a unified formulation in which incomplete elements (no matter in the prediction or observation) are treated as noise and propose a conditional diffusion model that denoises them and forecasts plausible poses. Instead of naively predicting all future frames at once, our model consists of two cascaded sub-models, each specialized for modeling short and long horizon distributions. We also propose a generic framework to improve any 3D pose forecasting model by leveraging our diffusion model in two additional steps: a pre-processing step to repair the inputs and a post-processing step to refine the outputs. We investigate our findings on four standard datasets (Human3.6M, HumanEva-I, AMASS, and 3DPW) and obtain significant improvements over the state-of-the-art. The code will be made available online.

arxiv情報

著者 Saeed Saadatnejad,Ali Rasekh,Mohammadreza Mofayezi,Yasamin Medghalchi,Sara Rajabzadeh,Taylor Mordan,Alexandre Alahi
発行日 2022-10-11 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO パーマリンク