要約
静的なフィードフォワードによるシーン再構成における最近の進歩は、高品質で新しいビュー合成において大きな進歩を示している。しかし、これらのモデルは、多様な環境にわたる汎化性にしばしば苦戦し、動的なコンテンツを効果的に扱うことができない。我々は、動的シーンのリアルタイム再構成と新規ビュー合成のための、初の動き認識フィードフォワードモデルであるBTimer(BulletTimerの略)を発表する。我々のアプローチは、全てのコンテキストフレームからの情報を集約することにより、与えられたターゲット(’弾丸’)のタイムスタンプにおいて、3Dガウススプラッティング表現で完全なシーンを再構成する。このような定式化により、BTimerは静的シーンと動的シーンの両方のデータセットを活用することで、スケーラビリティと汎用性を得ることができる。カジュアルな単眼の動的映像が与えられた場合、BTimerは、最適化ベースのアプローチと比較しても、静的および動的シーンデータセットの両方で最先端の性能を達成しながら、150ms以内に弾丸時間シーンを再構成する。
要約(オリジナル)
Recent advancements in static feed-forward scene reconstruction have demonstrated significant progress in high-quality novel view synthesis. However, these models often struggle with generalizability across diverse environments and fail to effectively handle dynamic content. We present BTimer (short for BulletTimer), the first motion-aware feed-forward model for real-time reconstruction and novel view synthesis of dynamic scenes. Our approach reconstructs the full scene in a 3D Gaussian Splatting representation at a given target (‘bullet’) timestamp by aggregating information from all the context frames. Such a formulation allows BTimer to gain scalability and generalization by leveraging both static and dynamic scene datasets. Given a casual monocular dynamic video, BTimer reconstructs a bullet-time scene within 150ms while reaching state-of-the-art performance on both static and dynamic scene datasets, even compared with optimization-based approaches.
arxiv情報
著者 | Hanxue Liang,Jiawei Ren,Ashkan Mirzaei,Antonio Torralba,Ziwei Liu,Igor Gilitschenski,Sanja Fidler,Cengiz Oztireli,Huan Ling,Zan Gojcic,Jiahui Huang |
発行日 | 2024-12-04 18:15:06+00:00 |
arxivサイト | arxiv_id(pdf) |