Animatable 3D Gaussians for High-fidelity Synthesis of Human Motions

要約

私たちは、高忠実度の自由視点の人間の動きをリアルタイムでレンダリングするための、新しいアニメーション可能な 3D ガウス モデルを紹介します。
既存の NeRF ベースの手法と比較して、このモデルは、ビデオ フレーム間のジッターの問題を発生させることなく、高周波の詳細を合成する優れた機能を備えています。
私たちのモデルの中核は、各ガウスに学習可能なコードを付加する、新しい拡張 3D ガウス表現です。
学習可能なコードは、ガウスの幾何学的変換によって引き起こされる誤った外観を調整するためのポーズ依存の外観埋め込みとして機能します。これに基づいて、ターゲット ポーズでの外観に一致する残留ガウス プロパティを生成する外観調整モデルが学習されます。
ガウスに背景の干渉なしに前景の人間のみを学習させるために、さらに新しいアルファ損失を設計して、ガウスを人体内に明示的に制限します。
また、人間の関節パラメータを共同で最適化し、外観の精度を向上させることも提案します。
アニメーション化可能な 3D ガウス モデルは浅い MLP で学習できるため、新しい人間のモーションをリアルタイム (平均で 66 fps) で合成できます。
実験によれば、私たちのモデルは NeRF ベースの方法よりも優れたパフォーマンスを持っています。

要約(オリジナル)

We present a novel animatable 3D Gaussian model for rendering high-fidelity free-view human motions in real time. Compared to existing NeRF-based methods, the model owns better capability in synthesizing high-frequency details without the jittering problem across video frames. The core of our model is a novel augmented 3D Gaussian representation, which attaches each Gaussian with a learnable code. The learnable code serves as a pose-dependent appearance embedding for refining the erroneous appearance caused by geometric transformation of Gaussians, based on which an appearance refinement model is learned to produce residual Gaussian properties to match the appearance in target pose. To force the Gaussians to learn the foreground human only without background interference, we further design a novel alpha loss to explicitly constrain the Gaussians within the human body. We also propose to jointly optimize the human joint parameters to improve the appearance accuracy. The animatable 3D Gaussian model can be learned with shallow MLPs, so new human motions can be synthesized in real time (66 fps on avarage). Experiments show that our model has superior performance over NeRF-based methods.

arxiv情報

著者 Keyang Ye,Tianjia Shao,Kun Zhou
発行日 2023-11-22 14:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク