要約
変形可能なガウススプラット大きな再構成モデル(DGS-LRM)を紹介します。これは、ダイナミックシーンの単眼のポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード方法です。
フィードフォワードシーンの再構成は、現実世界の環境のデジタルレプリカを迅速に作成できる能力について大きな注目を集めています。
ただし、ほとんどの既存のモデルは静的シーンに限定されており、移動オブジェクトの動きを再構築できません。
動的シーンの再構築のためのフィードフォワードモデルの開発は、トレーニングデータの希少性や適切な3D表現とトレーニングパラダイムの必要性など、大きな課題をもたらします。
これらの課題に対処するために、いくつかの重要な技術的貢献を紹介します。グラウンドトゥルースマルチビュービデオと密な3Dシーンフロー監督を備えた強化された大規模な合成データセット。
学習しやすく、高品質の動的ビュー合成をサポートし、長距離3D追跡を可能にするピクセルあたりの変形可能な3Dガウス表現。
リアルタイムで一般化可能な動的シーンの再構築を実現する大規模なトランスネットワーク。
広範な定性的および定量的実験は、DGS-LRMが最適化ベースの方法に匹敵する動的シーンの再構成品質を達成し、現実世界の例で最先端の予測動的再構成方法を大幅に上回ることを示しています。
その予測される物理的に接地された3D変形は正確であり、長距離3D追跡タスクに容易に適応でき、最先端の単眼ビデオ3D追跡方法と同等のパフォーマンスを実現できます。
要約(オリジナル)
We introduce the Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM), the first feed-forward method predicting deformable 3D Gaussian splats from a monocular posed video of any dynamic scene. Feed-forward scene reconstruction has gained significant attention for its ability to rapidly create digital replicas of real-world environments. However, most existing models are limited to static scenes and fail to reconstruct the motion of moving objects. Developing a feed-forward model for dynamic scene reconstruction poses significant challenges, including the scarcity of training data and the need for appropriate 3D representations and training paradigms. To address these challenges, we introduce several key technical contributions: an enhanced large-scale synthetic dataset with ground-truth multi-view videos and dense 3D scene flow supervision; a per-pixel deformable 3D Gaussian representation that is easy to learn, supports high-quality dynamic view synthesis, and enables long-range 3D tracking; and a large transformer network that achieves real-time, generalizable dynamic scene reconstruction. Extensive qualitative and quantitative experiments demonstrate that DGS-LRM achieves dynamic scene reconstruction quality comparable to optimization-based methods, while significantly outperforming the state-of-the-art predictive dynamic reconstruction method on real-world examples. Its predicted physically grounded 3D deformation is accurate and can readily adapt for long-range 3D tracking tasks, achieving performance on par with state-of-the-art monocular video 3D tracking methods.
arxiv情報
著者 | Chieh Hubert Lin,Zhaoyang Lv,Songyin Wu,Zhen Xu,Thu Nguyen-Phuoc,Hung-Yu Tseng,Julian Straub,Numair Khan,Lei Xiao,Ming-Hsuan Yang,Yuheng Ren,Richard Newcombe,Zhao Dong,Zhengqin Li |
発行日 | 2025-06-11 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google