Seeing World Dynamics in a Nutshell

要約

私たちは、空間的に一時的に一貫した方法で、さりげなくキャプチャされたモノクラービデオを効率的に表現する問題を考慮します。
既存のアプローチは、主に空間的ピクセルのコレクションとしてビデオを扱う2D/2.5Dテクニックに依存していますが、それらは、一時的なコヒーレンスと明示的な3D構造の欠如により、複雑な動き、閉塞、および幾何学的一貫性と格闘しています。
ダイナミック3Dワールドの投影としての単眼ビデオからインスピレーションを得て、時空のガウス原始物質の連続流を通して、本質的な3D形式でビデオを表現することを探ります。
このホワイトペーパーでは、単眼ビデオを単一の前方パスでダイナミックな3Dガウス表現に効率的に変換する新しいフレームワークであるNutworldを提案します。
Nutworldは、その中心で、構造化された空間的整列ガウス(STAG)表現を導入し、効果的な深さと流れの正則化を伴う最適化のないシーンモデリングを可能にします。
包括的な実験を通じて、NutWorldがさまざまなダウンストリームアプリケーションをリアルタイムで可能にしながら、忠実度の高いビデオ再構成の品質を達成することを実証します。
デモとコードはhttps://github.com/nut-world/nutworldで入手できます。

要約(オリジナル)

We consider the problem of efficiently representing casually captured monocular videos in a spatially- and temporally-coherent manner. While existing approaches predominantly rely on 2D/2.5D techniques treating videos as collections of spatiotemporal pixels, they struggle with complex motions, occlusions, and geometric consistency due to absence of temporal coherence and explicit 3D structure. Drawing inspiration from monocular video as a projection of the dynamic 3D world, we explore representing videos in their intrinsic 3D form through continuous flows of Gaussian primitives in space-time. In this paper, we propose NutWorld, a novel framework that efficiently transforms monocular videos into dynamic 3D Gaussian representations in a single forward pass. At its core, NutWorld introduces a structured spatial-temporal aligned Gaussian (STAG) representation, enabling optimization-free scene modeling with effective depth and flow regularization. Through comprehensive experiments, we demonstrate that NutWorld achieves high-fidelity video reconstruction quality while enabling various downstream applications in real-time. Demos and code will be available at https://github.com/Nut-World/NutWorld.

arxiv情報

著者 Qiuhong Shen,Xuanyu Yi,Mingbao Lin,Hanwang Zhang,Shuicheng Yan,Xinchao Wang
発行日 2025-02-05 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM パーマリンク