Learning Human Mesh Recovery in 3D Scenes

要約

我々は、単一の画像が与えられた事前スキャンされたシーン内の人間の絶対的な姿勢と形状を復元するための新しい方法を提案します。
シーンに応じたメッシュ最適化を実行するこれまでの方法とは異なり、最初にスパース 3D CNN を使用して絶対位置と密なシーンの接触を推定し、その後、派生した 3D シーンのキューとのクロスアテンションによって事前学習された人間のメッシュ回復ネットワークを強化することを提案します。
画像とシーンジオメトリの共同学習により、私たちの方法は奥行きと​​オクルージョンによって引き起こされる曖昧さを軽減し、より合理的な全体的な姿勢と接触を実現します。
ネットワーク内でシーン認識キューをエンコードすることにより、提案された方法を最適化不要にすることも可能になり、リアルタイム アプリケーションの機会が開かれます。
実験では、提案されたネットワークが単一の順方向パスで正確かつ物理的に妥当なメッシュを回復でき、精度と速度の両方の点で最先端の方法を上回ることが示されました。

要約(オリジナル)

We present a novel method for recovering the absolute pose and shape of a human in a pre-scanned scene given a single image. Unlike previous methods that perform sceneaware mesh optimization, we propose to first estimate absolute position and dense scene contacts with a sparse 3D CNN, and later enhance a pretrained human mesh recovery network by cross-attention with the derived 3D scene cues. Joint learning on images and scene geometry enables our method to reduce the ambiguity caused by depth and occlusion, resulting in more reasonable global postures and contacts. Encoding scene-aware cues in the network also allows the proposed method to be optimization-free, and opens up the opportunity for real-time applications. The experiments show that the proposed network is capable of recovering accurate and physically-plausible meshes by a single forward pass and outperforms state-of-the-art methods in terms of both accuracy and speed.

arxiv情報

著者 Zehong Shen,Zhi Cen,Sida Peng,Qing Shuai,Hujun Bao,Xiaowei Zhou
発行日 2023-06-06 16:35:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク