Mesh Strikes Back: Fast and Efficient Human Reconstruction from RGB videos


単眼 RGB ビデオからの人間の再構成と合成は、衣服、オクルージョン、テクスチャの不連続性とシャープネス、およびフレーム固有のポーズの変化により、困難な問題です。
多くの方法では、メッシュベースの表現では RGB、シルエット、およびキーポイントだけから複雑な衣服やテクスチャをキャプチャできないという前提で、遅延レンダリング、NeRF、および暗黙的な方法を使用して服を着た人間を表現しています。
RGB 画像、バイナリ シルエット、まばらな 2D キーポイントのみを使用して、SMPL+D メッシュと効率的なマルチ解像度テクスチャ表現を最適化することにより、この基本的な前提に反対の視点を提供します。
注目すべき不要なアーティファクトを導入する NeRF ベースの方法と比較して、競争力のある新しいビュー合成と新しいポーズ合成の改善を示します。
微分可能なレンダリングと組み合わせた SMPL+D モデルにソリューション スペースを制限することで、計算、トレーニング時間 (最大 24 倍)、および推論時間 (最大 192 倍) の劇的なスピードアップが得られます。
したがって、私たちの方法は、そのまま使用することも、NeRF ベースの方法への高速初期化として使用することもできます。


Human reconstruction and synthesis from monocular RGB videos is a challenging problem due to clothing, occlusion, texture discontinuities and sharpness, and framespecific pose changes. Many methods employ deferred rendering, NeRFs and implicit methods to represent clothed humans, on the premise that mesh-based representations cannot capture complex clothing and textures from RGB, silhouettes, and keypoints alone. We provide a counter viewpoint to this fundamental premise by optimizing a SMPL+D mesh and an efficient, multi-resolution texture representation using only RGB images, binary silhouettes and sparse 2D keypoints. Experimental results demonstrate that our approach is more capable of capturing geometric details compared to visual hull, mesh-based methods. We show competitive novel view synthesis and improvements in novel pose synthesis compared to NeRF-based methods, which introduce noticeable, unwanted artifacts. By restricting the solution space to the SMPL+D model combined with differentiable rendering, we obtain dramatic speedups in compute, training times (up to 24x) and inference times (up to 192x). Our method therefore can be used as is or as a fast initialization to NeRF-based methods.


著者 Rohit Jena,Pratik Chaudhari,James Gee,Ganesh Iyer,Siddharth Choudhary,Brandon M. Smith
発行日 2023-03-15 17:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク