要約
1枚の画像から両手の動きを再現することは、射影幾何学やオクルージョンに起因する曖昧さのため、困難な問題である。既存の手法は、画像の証拠に等しく適合する他の有効な再構成が存在するという事実にもかかわらず、単一のポーズのみを推定するように設計されている。本論文では、条件付き正規化フローのフレームワークにおいて、妥当な再構成の分布を明示的にモデル化することにより、この問題を解決することを提案する。これにより、入力画像によく投影される様々な3D手のポーズサンプルの鍵となる、新しい行列式の大きさの正則化を通じて、事後分布を直接監視することができる。また、再構成の品質を評価するために一般的に使用されているメトリクスは、このような厳しい曖昧さの下でポーズ予測を評価するには不十分であることを実証します。この問題に対処するため、我々はMultiHandsと呼ばれる画像ごとに複数のもっともらしい注釈を持つ最初のデータセットをリリースしました。このデータセットを用いて、推定される分布の最大平均不一致度を評価することができます。これにより、我々の確率的再構成の品質を実証し、この困難な問題には明示的なあいまい性モデリングがより適していることを示す。
要約(オリジナル)
Reconstructing two-hand interactions from a single image is a challenging problem due to ambiguities that stem from projective geometry and heavy occlusions. Existing methods are designed to estimate only a single pose, despite the fact that there exist other valid reconstructions that fit the image evidence equally well. In this paper we propose to address this issue by explicitly modeling the distribution of plausible reconstructions in a conditional normalizing flow framework. This allows us to directly supervise the posterior distribution through a novel determinant magnitude regularization, which is key to varied 3D hand pose samples that project well into the input image. We also demonstrate that metrics commonly used to assess reconstruction quality are insufficient to evaluate pose predictions under such severe ambiguity. To address this, we release the first dataset with multiple plausible annotations per image called MultiHands. The additional annotations enable us to evaluate the estimated distribution using the maximum mean discrepancy metric. Through this, we demonstrate the quality of our probabilistic reconstruction and show that explicit ambiguity modeling is better-suited for this challenging problem.
arxiv情報
著者 | Jiayi Wang,Diogo Luvizon,Franziska Mueller,Florian Bernard,Adam Kortylewski,Dan Casas,Christian Theobalt |
発行日 | 2022-10-04 15:42:22+00:00 |
arxivサイト | arxiv_id(pdf) |