TokenHMR: Advancing Human Mesh Recovery with a Tokenized Pose Representation

要約

私たちは、3D の精度に焦点を当てて、単一の画像から 3D 人間のポーズと形状を退化させる問題に取り組みます。
現在の最良の方法は、3D 擬似グラウンドトゥルース (p-GT) と 2D キーポイントの大規模なデータセットを活用し、堅牢なパフォーマンスを実現します。
このような方法を使用すると、2D 精度が向上するにつれて 3D ポーズ精度が低下するという逆説的な現象が観察されます。
これは、p-GT のバイアスと近似カメラ投影モデルの使用によって引き起こされます。
現在のカメラ モデルによって引き起こされる誤差を定量化し、2D キーポイントと p-GT を正確にフィッティングすると不正確な 3D ポーズが発生することを示します。
私たちの分析は、2D 損失と p-GT 損失を最小限に抑えることが有害となる無効な距離を定義します。
これを使用して、総 2D および p-GT 損失にはペナルティを課しますが、より小さい損失にはペナルティを課さない、新しい損失しきい値適応損失スケーリング (TALS) を定式化します。
このような損失があるため、2D の証拠を同様に説明できる 3D ポーズが多数あります。
この曖昧さを軽減するには、有効な人間のポーズに対する事前分布が必要ですが、そのような事前分布は望ましくないバイアスを導入する可能性があります。
これに対処するために、人間のポーズのトークン化された表現を利用し、問題をトークン予測として再定式化します。
これにより、推定されたポーズが有効なポーズの空間に制限され、効果的に均一な事前分布が提供されます。
EMDB および 3DPW データセットに関する広範な実験により、再定式化されたキーポイントの損失とトークン化により、最先端のデータよりも 3D 精度を向上させながら、実際のデータでトレーニングできることがわかりました。
私たちのモデルとコードは、https://tokenhmr.is.tue.mpg.de で研究用に入手できます。

要約(オリジナル)

We address the problem of regressing 3D human pose and shape from a single image, with a focus on 3D accuracy. The current best methods leverage large datasets of 3D pseudo-ground-truth (p-GT) and 2D keypoints, leading to robust performance. With such methods, we observe a paradoxical decline in 3D pose accuracy with increasing 2D accuracy. This is caused by biases in the p-GT and the use of an approximate camera projection model. We quantify the error induced by current camera models and show that fitting 2D keypoints and p-GT accurately causes incorrect 3D poses. Our analysis defines the invalid distances within which minimizing 2D and p-GT losses is detrimental. We use this to formulate a new loss Threshold-Adaptive Loss Scaling (TALS) that penalizes gross 2D and p-GT losses but not smaller ones. With such a loss, there are many 3D poses that could equally explain the 2D evidence. To reduce this ambiguity we need a prior over valid human poses but such priors can introduce unwanted bias. To address this, we exploit a tokenized representation of human pose and reformulate the problem as token prediction. This restricts the estimated poses to the space of valid poses, effectively providing a uniform prior. Extensive experiments on the EMDB and 3DPW datasets show that our reformulated keypoint loss and tokenization allows us to train on in-the-wild data while improving 3D accuracy over the state-of-the-art. Our models and code are available for research at https://tokenhmr.is.tue.mpg.de.

arxiv情報

著者 Sai Kumar Dwivedi,Yu Sun,Priyanka Patel,Yao Feng,Michael J. Black
発行日 2024-04-25 17:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク