VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data

要約

単眼3Dポーズ推定は、公開データセットで非常に正確な結果を達成したように見えますが、それらの一般化機能はほとんど見過ごされています。
この作業では、既存の方法を体系的に評価し、さまざまなカメラ、人間のポーズ、外観でテストすると、エラーが著しく大きくなることを確認しました。
この問題に対処するために、このタスクに固有の隠された「フリーランチ」を活用する2段階の学習フレームワークであるVirtualPoseを導入します。つまり、モデルをトレーニングするためのポーズとカメラを無限に無料で生成します。
そのために、最初のステージでは画像を抽象ジオメトリ表現(AGR)に変換し、次に2番目のステージで画像を3Dポーズにマッピングします。
これは、2つの側面から一般化の問題に対処します。(1)最初の段階は多様な2Dデータセットでトレーニングして、限られた外観に過剰適合するリスクを減らすことができます。
(2)第2ステージは、多数の仮想カメラとポーズから合成された多様なAGRでトレーニングできます。
ベンチマークからのペア画像と3Dポーズを使用せずに、SOTAメソッドよりも優れており、実用的なアプリケーションへの道を開きます。
コードはhttps://github.com/wkom/VirtualPoseで入手できます。

要約(オリジナル)

While monocular 3D pose estimation seems to have achieved very accurate results on the public datasets, their generalization ability is largely overlooked. In this work, we perform a systematic evaluation of the existing methods and find that they get notably larger errors when tested on different cameras, human poses and appearance. To address the problem, we introduce VirtualPose, a two-stage learning framework to exploit the hidden ‘free lunch’ specific to this task, i.e. generating infinite number of poses and cameras for training models at no cost. To that end, the first stage transforms images to abstract geometry representations (AGR), and then the second maps them to 3D poses. It addresses the generalization issue from two aspects: (1) the first stage can be trained on diverse 2D datasets to reduce the risk of over-fitting to limited appearance; (2) the second stage can be trained on diverse AGR synthesized from a large number of virtual cameras and poses. It outperforms the SOTA methods without using any paired images and 3D poses from the benchmarks, which paves the way for practical applications. Code is available at https://github.com/wkom/VirtualPose.

arxiv情報

著者 Jiajun Su,Chunyu Wang,Xiaoxuan Ma,Wenjun Zeng,Yizhou Wang
発行日 2022-07-20 14:47:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク