OccGaussian: 3D Gaussian Splatting for Occluded Human Rendering

要約

単眼ビデオからダイナミックな 3D 人間をレンダリングすることは、仮想現実やデジタル エンターテイメントなどのさまざまなアプリケーションにとって重要です。
ほとんどの方法では、人物が遮るもののないシーンにいることを前提としていますが、現実のシナリオではさまざまな物体が身体部分のオクルージョンを引き起こす可能性があります。
遮蔽された領域を回復するサーフェス レンダリングに NeRF を利用する以前の方法では、トレーニングに 1 日以上、レンダリングに数秒を要し、リアルタイム インタラクティブ アプリケーションの要件を満たしていませんでした。
これらの問題に対処するために、3D ガウス スプラッティングに基づく OccGaussian を提案します。これは 6 分以内にトレーニングでき、遮蔽された入力で最大 160 FPS の高品質な人間のレンダリングを生成します。
OccGaussian は正準空間内の 3D ガウス分布を初期化し、オクルージョンされた領域でオクルージョン フィーチャのクエリを実行します。集約されたピクセル位置合わせフィーチャが抽出されて、欠落している情報が補われます。
次に、ガウス フィーチャ MLP を使用して、オクルージョンを認識した損失関数とともにフィーチャをさらに処理し、オクルージョンされた領域をより適切に認識します。
シミュレートされたオクルージョンと現実世界のオクルージョンの両方における広範な実験により、私たちの方法が最先端の方法と比較して同等、またはそれ以上のパフォーマンスを達成することが実証されました。
また、トレーニング速度と推論速度がそれぞれ 250 倍と 800 倍向上しました。
私たちのコードは研究目的で利用できます。

要約(オリジナル)

Rendering dynamic 3D human from monocular videos is crucial for various applications such as virtual reality and digital entertainment. Most methods assume the people is in an unobstructed scene, while various objects may cause the occlusion of body parts in real-life scenarios. Previous method utilizing NeRF for surface rendering to recover the occluded areas, but it requiring more than one day to train and several seconds to render, failing to meet the requirements of real-time interactive applications. To address these issues, we propose OccGaussian based on 3D Gaussian Splatting, which can be trained within 6 minutes and produces high-quality human renderings up to 160 FPS with occluded input. OccGaussian initializes 3D Gaussian distributions in the canonical space, and we perform occlusion feature query at occluded regions, the aggregated pixel-align feature is extracted to compensate for the missing information. Then we use Gaussian Feature MLP to further process the feature along with the occlusion-aware loss functions to better perceive the occluded area. Extensive experiments both in simulated and real-world occlusions, demonstrate that our method achieves comparable or even superior performance compared to the state-of-the-art method. And we improving training and inference speeds by 250x and 800x, respectively. Our code will be available for research purposes.

arxiv情報

著者 Jingrui Ye,Zongkai Zhang,Yujiao Jiang,Qingmin Liao,Wenming Yang,Zongqing Lu
発行日 2024-04-12 13:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク