S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points

要約

最近、ガウシアンを使用したダイナミックなシーンの再構成への関心が高まっています。
主流のアプローチは通常、グローバル変形フィールドを使用して、標準空間内の 3D シーンをワープします。
ただし、暗黙的なニューラル フィールドの本質的な低周波数の性質により、複雑な動作が非効率的に表現されることがよくあります。
さらに、その構造的な剛性により、さまざまな解像度や継続時間のシーンへの適応が妨げられる可能性があります。
これらの課題を克服するために、離散 3D コントロール ポイントを利用した新しいアプローチを導入します。
この方法では、ローカル レイを物理的にモデル化し、モーション デカップリング座標系を確立します。これにより、従来のグラフィックスと学習可能なパイプラインが効果的に結合され、堅牢で効率的なローカル 6 自由度 (6-DoF) モーション表現が実現されます。
さらに、ガウス分布を使用して制御点を組み込んだ一般化されたフレームワークを開発しました。
最初の 3D 再構成から開始して、ワークフローはストリーミング 4D 現実世界再構成を 4 つの独立したサブモジュール (3D セグメンテーション、3D コントロール ポイント生成、オブジェクトごとのモーション操作、および残差補償) に分解します。
私たちの実験では、この方法が Neu3DV データセットと CMU-Panoptic データセットの両方で既存の最先端の 4D ガウス スプラッティング技術よりも優れていることが実証されました。
また、私たちのアプローチはトレーニングを大幅に加速し、単一の NVIDIA 4070 GPU で 3D コントロール ポイントの最適化を 1 フレームあたりわずか 2 秒以内に達成できます。

要約(オリジナル)

Recently, the dynamic scene reconstruction using Gaussians has garnered increased interest. Mainstream approaches typically employ a global deformation field to warp a 3D scene in the canonical space. However, the inherently low-frequency nature of implicit neural fields often leads to ineffective representations of complex motions. Moreover, their structural rigidity can hinder adaptation to scenes with varying resolutions and durations. To overcome these challenges, we introduce a novel approach utilizing discrete 3D control points. This method models local rays physically and establishes a motion-decoupling coordinate system, which effectively merges traditional graphics with learnable pipelines for a robust and efficient local 6-degrees-of-freedom (6-DoF) motion representation. Additionally, we have developed a generalized framework that incorporates our control points with Gaussians. Starting from an initial 3D reconstruction, our workflow decomposes the streaming 4D real-world reconstruction into four independent submodules: 3D segmentation, 3D control points generation, object-wise motion manipulation, and residual compensation. Our experiments demonstrate that this method outperforms existing state-of-the-art 4D Gaussian Splatting techniques on both the Neu3DV and CMU-Panoptic datasets. Our approach also significantly accelerates training, with the optimization of our 3D control points achievable within just 2 seconds per frame on a single NVIDIA 4070 GPU.

arxiv情報

著者 Bing He,Yunuo Chen,Guo Lu,Li Song,Wenjun Zhang
発行日 2024-08-23 12:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク