Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting

要約

2D 画像から動的な 3D シーンを再構築し、時間の経過とともに多様なビューを生成することは、シーンの複雑さと時間的なダイナミクスのため、困難です。
ニューラル インプリシット モデルの進歩にも関わらず、限界は依然として残っています: (i) 不十分なシーン構造: 既存の方法では、複雑な 6D プレノプティック関数を直接学習して動的シーンの空間的および時間的構造を明らかにするのに苦労しています。
(ii) スケーリング変形モデリング: シーン要素の変形を明示的にモデリングすることは、複雑なダイナミクスでは非現実的になります。
これらの問題に対処するために、私たちは時空を全体として考慮し、明示的なジオメトリと外観モデリングを使用して 4D プリミティブのコレクションを最適化することで、動的シーンの基礎となる時空間 4D ボリュームを近似することを提案します。
4D プリミティブの最適化を学習すると、カスタマイズされたレンダリング ルーチンを使用して、いつでも新しいビューを合成できるようになります。
私たちのモデルは概念的には単純で、空間と時間内で任意に回転できる異方性楕円によってパラメータ化された 4D ガウスと、4D 球面調和関数の係数によって表されるビュー依存および時間発展の外観で構成されます。
このアプローチは、可変長ビデオとエンドツーエンドのトレーニングに対するシンプルさ、柔軟性、効率的なリアルタイム レンダリングを提供し、複雑で動的なシーンの動きをキャプチャするのに適しています。
単眼シナリオやマルチビュー シナリオなど、さまざまなベンチマークにわたる実験により、4DGS モデルの優れた視覚品質と効率が実証されました。

要約(オリジナル)

Reconstructing dynamic 3D scenes from 2D images and generating diverse views over time is challenging due to scene complexity and temporal dynamics. Despite advancements in neural implicit models, limitations persist: (i) Inadequate Scene Structure: Existing methods struggle to reveal the spatial and temporal structure of dynamic scenes from directly learning the complex 6D plenoptic function. (ii) Scaling Deformation Modeling: Explicitly modeling scene element deformation becomes impractical for complex dynamics. To address these issues, we consider the spacetime as an entirety and propose to approximate the underlying spatio-temporal 4D volume of a dynamic scene by optimizing a collection of 4D primitives, with explicit geometry and appearance modeling. Learning to optimize the 4D primitives enables us to synthesize novel views at any desired time with our tailored rendering routine. Our model is conceptually simple, consisting of a 4D Gaussian parameterized by anisotropic ellipses that can rotate arbitrarily in space and time, as well as view-dependent and time-evolved appearance represented by the coefficient of 4D spherindrical harmonics. This approach offers simplicity, flexibility for variable-length video and end-to-end training, and efficient real-time rendering, making it suitable for capturing complex dynamic scene motions. Experiments across various benchmarks, including monocular and multi-view scenarios, demonstrate our 4DGS model’s superior visual quality and efficiency.

arxiv情報

著者 Zeyu Yang,Hongye Yang,Zijie Pan,Xiatian Zhu,Li Zhang
発行日 2023-10-16 17:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク