VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space


RGB 画像からの人間の姿勢と形状の推定 (HPSE) は、パラメトリック アプローチとノンパラメトリック アプローチという 2 つの主要なグループに大別できます。
パラメトリック手法は現実的な結果を得るために低次元の統計的身体モデルを活用しますが、最近のノンパラメトリック手法は人体の 3D 座標を直接回帰することでより高い精度を実現します。
その長所にもかかわらず、どちらのアプローチも限界に直面しています。統計的身体モデルのパラメーターは回帰ターゲットとして課題を引き起こし、3D 座標の予測には計算の複雑さと滑らかさに関連する問題が生じます。
この研究では、HPSE 問題に対処するために新しいアプローチを採用しています。
我々は、人間メッシュの低次元離散潜在表現を含む独自の方法を導入し、HPSE を分類タスクとして構成します。
身体モデルのパラメーターや 3D 頂点座標を予測する代わりに、登録された人間のメッシュにデコードできる、提案された離散潜在表現を予測することに重点を置いています。
この革新的なパラダイムには 2 つの重要な利点があります。第 1 に、低次元の離散表現を予測することで、予測が擬人化されたポーズと形状の空間に限定されます。
次に、問題を分類タスクとして枠組み化することで、ニューラル ネットワークに固有の識別力を活用できます。
私たちが提案するモデルである VQ-HPS は、トランスフォーマーベースのアーキテクチャであり、クロスエントロピー損失を最小限に抑えることでトレーニングされたメッシュの離散潜在表現を予測します。
私たちの結果は、VQ-HPS が現在の最先端のノンパラメトリック アプローチよりも優れたパフォーマンスを示し、同時にパラメトリック手法によって生成されたものと同じくらい現実的な結果をもたらすことを示しています。
これは、HPSE の分類アプローチの大きな可能性を強調しています。


Human Pose and Shape Estimation (HPSE) from RGB images can be broadly categorized into two main groups: parametric and non-parametric approaches. Parametric techniques leverage a low-dimensional statistical body model for realistic results, whereas recent non-parametric methods achieve higher precision by directly regressing the 3D coordinates of the human body. Despite their strengths, both approaches face limitations: the parameters of statistical body models pose challenges as regression targets, and predicting 3D coordinates introduces computational complexities and issues related to smoothness. In this work, we take a novel approach to address the HPSE problem. We introduce a unique method involving a low-dimensional discrete latent representation of the human mesh, framing HPSE as a classification task. Instead of predicting body model parameters or 3D vertex coordinates, our focus is on forecasting the proposed discrete latent representation, which can be decoded into a registered human mesh. This innovative paradigm offers two key advantages: firstly, predicting a low-dimensional discrete representation confines our predictions to the space of anthropomorphic poses and shapes; secondly, by framing the problem as a classification task, we can harness the discriminative power inherent in neural networks. Our proposed model, VQ-HPS, a transformer-based architecture, forecasts the discrete latent representation of the mesh, trained through minimizing a cross-entropy loss. Our results demonstrate that VQ-HPS outperforms the current state-of-the-art non-parametric approaches while yielding results as realistic as those produced by parametric methods. This highlights the significant potential of the classification approach for HPSE.


著者 Guénolé Fiche,Simon Leglaive,Xavier Alameda-Pineda,Antonio Agudo,Francesc Moreno-Noguer
発行日 2023-12-13 17:08:38+00:00
arxivサイト arxiv_id(pdf)

