Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos

要約

静的なフィードフォワードによるシーン再構成における最近の進歩は、高品質で新しいビュー合成において大きな進歩を示している。しかし、これらのモデルは、多様な環境にわたる汎化性にしばしば苦戦し、動的なコンテンツを効果的に扱うことができない。我々は、動的シーンのリアルタイム再構成と新規ビュー合成のための、初の動き認識フィードフォワードモデルであるBTimer(BulletTimerの略)を発表する。我々のアプローチは、全てのコンテキストフレームからの情報を集約することにより、与えられたターゲット(’弾丸’)のタイムスタンプにおいて、3Dガウススプラッティング表現で完全なシーンを再構成する。このような定式化により、BTimerは静的シーンと動的シーンの両方のデータセットを活用することで、スケーラビリティと汎用性を得ることができる。カジュアルな単眼の動的映像が与えられた場合、BTimerは、最適化ベースのアプローチと比較しても、静的および動的シーンデータセットの両方で最先端の性能を達成しながら、150ms以内に弾丸時間シーンを再構成する。

要約(オリジナル)

Recent advancements in static feed-forward scene reconstruction have demonstrated significant progress in high-quality novel view synthesis. However, these models often struggle with generalizability across diverse environments and fail to effectively handle dynamic content. We present BTimer (short for BulletTimer), the first motion-aware feed-forward model for real-time reconstruction and novel view synthesis of dynamic scenes. Our approach reconstructs the full scene in a 3D Gaussian Splatting representation at a given target (‘bullet’) timestamp by aggregating information from all the context frames. Such a formulation allows BTimer to gain scalability and generalization by leveraging both static and dynamic scene datasets. Given a casual monocular dynamic video, BTimer reconstructs a bullet-time scene within 150ms while reaching state-of-the-art performance on both static and dynamic scene datasets, even compared with optimization-based approaches.

arxiv情報

著者 Hanxue Liang,Jiawei Ren,Ashkan Mirzaei,Antonio Torralba,Ziwei Liu,Igor Gilitschenski,Sanja Fidler,Cengiz Oztireli,Huan Ling,Zan Gojcic,Jiahui Huang
発行日 2024-12-04 18:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク