MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

要約

野生で何気なく撮影された単眼ビデオから動的シーンの斬新なビューを再構成および合成するように設計された神経情報処理システムである 4D Motion Scaffolds (MoSca) を紹介します。
このような困難で不適切な逆問題に対処するために、基礎的な視覚モデルからの事前知識を活用し、ビデオ データを新しい Motion Scaffold (MoSca) 表現に引き上げます。これにより、基礎となる動き/変形がコンパクトかつスムーズにエンコードされます。
次に、シーンのジオメトリと外観が変形フィールドから解き放たれ、MoSca に固定されたガウスをグローバルに融合することによってエンコードされ、ガウス スプラッティングによって最適化されます。
さらに、カメラのポーズは、他のポーズ推定ツールを必要とせずに、動的レンダリング プロセス中にシームレスに初期化および調整できます。
実験では、動的レンダリングのベンチマークで最先端のパフォーマンスを実証します。

要約(オリジナル)

We introduce 4D Motion Scaffolds (MoSca), a neural information processing system designed to reconstruct and synthesize novel views of dynamic scenes from monocular videos captured casually in the wild. To address such a challenging and ill-posed inverse problem, we leverage prior knowledge from foundational vision models, lift the video data to a novel Motion Scaffold (MoSca) representation, which compactly and smoothly encodes the underlying motions / deformations. The scene geometry and appearance are then disentangled from the deformation field, and are encoded by globally fusing the Gaussians anchored onto the MoSca and optimized via Gaussian Splatting. Additionally, camera poses can be seamlessly initialized and refined during the dynamic rendering process, without the need for other pose estimation tools. Experiments demonstrate state-of-the-art performance on dynamic rendering benchmarks.

arxiv情報

著者 Jiahui Lei,Yijia Weng,Adam Harley,Leonidas Guibas,Kostas Daniilidis
発行日 2024-05-27 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク