GauHuman: Articulated Gaussian Splatting from Monocular Human Videos

要約

数時間と数秒のトレーニングを必要とする既存の NeRF ベースの暗黙的表現モデリング フレームワークと比較して、高速トレーニング (1 ~ 2 分) とリアルタイム レンダリング (最大 189 FPS) の両方を実現するガウス スプラッティングを備えた 3D 人体モデル GauHuman を紹介します。
フレームごとのレンダリングの数。
具体的には、GauHuman は正規空間でガウス スプラッティングをエンコードし、線形ブレンド スキニング (LBS) を使用して 3D ガウスを正規空間からポーズ空間に変換します。効果的なポーズ モジュールと LBS リファインメント モジュールは、無視できる計算コストで 3D 人間の詳細を学習するように設計されています。
さらに、GauHuman の高速最適化を可能にするために、KL ダイバージェンス ガイダンスを介して分割/クローンを作成しながら、さらに高速化するための新しいマージ操作とともに、3D ヒューマンを使用して 3D ガウスを初期化およびプルーニングします。
ZJU_Mocap および MonoCap データセットに関する広範な実験により、GauHuman が高速トレーニングとリアルタイム レンダリング速度により定量的および定性的に最先端のパフォーマンスを達成することが実証されました。
特に、GauHuman はレンダリング品質を犠牲にすることなく、約 13,000 の 3D ガウスを使用して 3D 人間のパフォーマーを高速にモデル化できます。

要約(オリジナル)

We present, GauHuman, a 3D human model with Gaussian Splatting for both fast training (1 ~ 2 minutes) and real-time rendering (up to 189 FPS), compared with existing NeRF-based implicit representation modelling frameworks demanding hours of training and seconds of rendering per frame. Specifically, GauHuman encodes Gaussian Splatting in the canonical space and transforms 3D Gaussians from canonical space to posed space with linear blend skinning (LBS), in which effective pose and LBS refinement modules are designed to learn fine details of 3D humans under negligible computational cost. Moreover, to enable fast optimization of GauHuman, we initialize and prune 3D Gaussians with 3D human prior, while splitting/cloning via KL divergence guidance, along with a novel merge operation for further speeding up. Extensive experiments on ZJU_Mocap and MonoCap datasets demonstrate that GauHuman achieves state-of-the-art performance quantitatively and qualitatively with fast training and real-time rendering speed. Notably, without sacrificing rendering quality, GauHuman can fast model the 3D human performer with ~13k 3D Gaussians.

arxiv情報

著者 Shoukang Hu,Ziwei Liu
発行日 2023-12-05 18:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク