要約
単眼カメラを使用した三次元 (3D) 人間の姿勢推定は、その実装の容易さと日常生活から得られる豊富なデータにより、ますます注目を集めています。
しかし、画像に固有の深さの曖昧さのため、既存の単眼カメラベースの 3D 姿勢推定方法の精度は依然として満足のいくものではなく、推定された 3D 姿勢には通常多くのノイズが含まれています。
このノイズのヒストグラムを観察すると、ノイズの各次元が特定の分布に従っていることがわかります。これは、ニューラル ネットワークがノイズのあるポーズとグランド トゥルース ポーズの間のマッピングを学習できる可能性を示しています。
この研究では、より正確な 3D ポーズを取得するために、既存の 3D ポーズ推定器の出力を調整する拡散ベースの 3D ポーズ リファイナ (D3PRefiner) が提案されています。
まず、条件付き多変量ガウス分布を導入して、ノイズのある 3D ポーズの分布をモデル化し、より高い精度を達成するための条件としてペアの 2D ポーズとノイズのある 3D ポーズを使用します。
さらに、現在の拡散モデルのアーキテクチャを活用して、ノイズの多い 3D ポーズの分布をグラウンド トゥルース 3D ポーズに変換します。
提案された方法の有効性を評価するために、2 つの最先端のシーケンス間 3D 姿勢推定器が基本的な 3D 姿勢推定モデルとして使用され、提案された方法はさまざまなタイプの 2D ポーズとさまざまな長さの 2D ポーズで評価されます。
入力シーケンス。
実験結果は、提案されたアーキテクチャが現在のシーケンス間 3D 姿勢推定器のパフォーマンスを大幅に向上させ、関節あたりの平均位置誤差 (MPJPE) が少なくとも 10.3%、Procrustes MPJPE が少なくとも 11.0% 削減されることを示しています (
P-MPJPE)。
要約(オリジナル)
Three-dimensional (3D) human pose estimation using a monocular camera has gained increasing attention due to its ease of implementation and the abundance of data available from daily life. However, owing to the inherent depth ambiguity in images, the accuracy of existing monocular camera-based 3D pose estimation methods remains unsatisfactory, and the estimated 3D poses usually include much noise. By observing the histogram of this noise, we find each dimension of the noise follows a certain distribution, which indicates the possibility for a neural network to learn the mapping between noisy poses and ground truth poses. In this work, in order to obtain more accurate 3D poses, a Diffusion-based 3D Pose Refiner (D3PRefiner) is proposed to refine the output of any existing 3D pose estimator. We first introduce a conditional multivariate Gaussian distribution to model the distribution of noisy 3D poses, using paired 2D poses and noisy 3D poses as conditions to achieve greater accuracy. Additionally, we leverage the architecture of current diffusion models to convert the distribution of noisy 3D poses into ground truth 3D poses. To evaluate the effectiveness of the proposed method, two state-of-the-art sequence-to-sequence 3D pose estimators are used as basic 3D pose estimation models, and the proposed method is evaluated on different types of 2D poses and different lengths of the input sequence. Experimental results demonstrate the proposed architecture can significantly improve the performance of current sequence-to-sequence 3D pose estimators, with a reduction of at least 10.3% in the mean per joint position error (MPJPE) and at least 11.0% in the Procrustes MPJPE (P-MPJPE).
arxiv情報
著者 | Danqi Yan,Qing Gao,Yuepeng Qian,Xinxing Chen,Chenglong Fu,Yuquan Leng |
発行日 | 2024-01-08 14:21:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google