要約
体積測定による 3D 姿勢推定の成功に触発されて、一部の最近のヒューマン メッシュ推定器は、中間表現として 3D スケルトンを推定することを提案しており、そこからメッシュ トポロジを利用して密な 3D メッシュを回帰します。
ただし、スケルトンを抽出する際に体型情報が失われるため、パフォーマンスが平凡になります。
高度なモーション キャプチャ システムは、体の表面に高密度の物理マーカーを配置することで問題を解決します。これにより、非剛体モーションからリアルなメッシュを抽出できるようになります。
ただし、マーカーのない野生の画像には適用できません。
この研究では、仮想マーカーと呼ばれる中間表現を提示します。これは、大規模なモーション キャプチャ データに基づいて体表面の 64 個のランドマーク キーポイントを生成スタイルで学習し、物理マーカーの効果を模倣します。
仮想マーカーは野生の画像から正確に検出でき、単純な補間によって現実的な形状を備えた無傷のメッシュを再構築できます。
私たちのアプローチは、3 つのデータセットに対して最先端の手法を上回ります。
特に、多様な体型を持つ SURREAL データセットでは、既存の手法を大幅に上回っています。
コードは https://github.com/ShirleyMaxx/VirtualMarker で入手できます。
要約(オリジナル)
Inspired by the success of volumetric 3D pose estimation, some recent human mesh estimators propose to estimate 3D skeletons as intermediate representations, from which, the dense 3D meshes are regressed by exploiting the mesh topology. However, body shape information is lost in extracting skeletons, leading to mediocre performance. The advanced motion capture systems solve the problem by placing dense physical markers on the body surface, which allows to extract realistic meshes from their non-rigid motions. However, they cannot be applied to wild images without markers. In this work, we present an intermediate representation, named virtual markers, which learns 64 landmark keypoints on the body surface based on the large-scale mocap data in a generative style, mimicking the effects of physical markers. The virtual markers can be accurately detected from wild images and can reconstruct the intact meshes with realistic shapes by simple interpolation. Our approach outperforms the state-of-the-art methods on three datasets. In particular, it surpasses the existing methods by a notable margin on the SURREAL dataset, which has diverse body shapes. Code is available at https://github.com/ShirleyMaxx/VirtualMarker
arxiv情報
著者 | Xiaoxuan Ma,Jiajun Su,Chunyu Wang,Wentao Zhu,Yizhou Wang |
発行日 | 2024-07-01 05:20:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google