V-VIPE: Variational View Invariant Pose Embedding

要約

人の 2 次元 (2D) 画像を基に、人間の 3 次元 (3D) のポーズを表現する方法を学習することは、困難な問題です。
問題の曖昧さを軽減するために、カメラの座標空間で 3D 姿勢を推定することが一般的に行われています。
ただし、これにより 2 つの 3D ポーズを比較する作業が困難になります。
この論文では、2D 画像から 3D 姿勢を推定する問題を 2 つのステップに分割することで、この課題に取り組みます。
変分オートエンコーダー (VAE) を使用して、正準座標空間内の 3D ポーズを表す埋め込みを見つけます。
この埋め込みを、変分ビュー不変ポーズ埋め込み V-VIPE と呼びます。
V-VIPE を使用すると、2D および 3D ポーズをエンコードし、検索や分類などの下流タスクに埋め込みを使用できます。
デコーダを使用してこれらの埋め込みから 3D ポーズを推定したり、目に見えない 3D ポーズを生成したりできます。
エンコーディングの可変性により、2D 空間からマッピングするときに目に見えないカメラ ビューまでうまく一般化できます。
私たちの知る限り、V-VIPE はこのような多様性のあるアプリケーションを提供する唯一の代表です。
コードと詳細情報は https://v-vipe.github.io/ でご覧いただけます。

要約(オリジナル)

Learning to represent three dimensional (3D) human pose given a two dimensional (2D) image of a person, is a challenging problem. In order to make the problem less ambiguous it has become common practice to estimate 3D pose in the camera coordinate space. However, this makes the task of comparing two 3D poses difficult. In this paper, we address this challenge by separating the problem of estimating 3D pose from 2D images into two steps. We use a variational autoencoder (VAE) to find an embedding that represents 3D poses in canonical coordinate space. We refer to this embedding as variational view-invariant pose embedding V-VIPE. Using V-VIPE we can encode 2D and 3D poses and use the embedding for downstream tasks, like retrieval and classification. We can estimate 3D poses from these embeddings using the decoder as well as generate unseen 3D poses. The variability of our encoding allows it to generalize well to unseen camera views when mapping from 2D space. To the best of our knowledge, V-VIPE is the only representation to offer this diversity of applications. Code and more information can be found at https://v-vipe.github.io/.

arxiv情報

著者 Mara Levy,Abhinav Shrivastava
発行日 2024-07-09 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク