MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

要約

野生で何気なく撮影された単眼ビデオからダイナミックなシーンの斬新なビューを再構成および合成するように設計された最新の 4D 再構成システムである 4D Motion Scaffolds (MoSca) を紹介します。
このような困難で不適切な逆問題に対処するために、基礎的な視覚モデルからの事前知識を活用し、ビデオ データを新しい Motion Scaffold (MoSca) 表現に引き上げます。これにより、基礎となる動き/変形がコンパクトかつスムーズにエンコードされます。
次に、シーンのジオメトリと外観は変形フィールドから解き放たれ、MoSca に固定されたガウスをグローバルに融合することによってエンコードされ、ガウス スプラッティングによって最適化されます。
さらに、カメラの焦点距離と姿勢は、他の姿勢推定ツールを必要とせずに、バンドル調整を使用して解決できます。
実験では、ダイナミック レンダリング ベンチマークでの最先端のパフォーマンスと実際のビデオでのその有効性を実証します。

要約(オリジナル)

We introduce 4D Motion Scaffolds (MoSca), a modern 4D reconstruction system designed to reconstruct and synthesize novel views of dynamic scenes from monocular videos captured casually in the wild. To address such a challenging and ill-posed inverse problem, we leverage prior knowledge from foundational vision models and lift the video data to a novel Motion Scaffold (MoSca) representation, which compactly and smoothly encodes the underlying motions/deformations. The scene geometry and appearance are then disentangled from the deformation field and are encoded by globally fusing the Gaussians anchored onto the MoSca and optimized via Gaussian Splatting. Additionally, camera focal length and poses can be solved using bundle adjustment without the need of any other pose estimation tools. Experiments demonstrate state-of-the-art performance on dynamic rendering benchmarks and its effectiveness on real videos.

arxiv情報

著者 Jiahui Lei,Yijia Weng,Adam Harley,Leonidas Guibas,Kostas Daniilidis
発行日 2024-11-29 18:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク