Shape of Motion: 4D Reconstruction from a Single Video


既存のアプローチは、テンプレートに依存しているか、準静的なシーンでのみ有効であるか、3D モーションを明示的にモデル化できないかのいずれかという点で制限されています。
この研究では、何気なく撮影した単眼ビデオから、明示的なフルシーケンス長の 3D モーションを特徴とする一般的な動的シーンを再構築できる方法を紹介します。
私たちは、2 つの重要な洞察をもとに、この問題の制約が不十分な性質に取り組みます。まず、SE3 モーション ベースのコンパクトなセットでシーン モーションを表現することで、3D モーションの低次元構造を利用します。
次に、単眼深度マップや長距離 2D トラックなどのデータ駆動型事前分布の包括的なセットを利用し、これらのノイズの多い監視信号を効果的に統合する方法を考案し、その結果、動的シーンのグローバルに一貫した表現が得られます。


Monocular dynamic reconstruction is a challenging and long-standing vision problem due to the highly ill-posed nature of the task. Existing approaches are limited in that they either depend on templates, are effective only in quasi-static scenes, or fail to model 3D motion explicitly. In this work, we introduce a method capable of reconstructing generic dynamic scenes, featuring explicit, full-sequence-long 3D motion, from casually captured monocular videos. We tackle the under-constrained nature of the problem with two key insights: First, we exploit the low-dimensional structure of 3D motion by representing scene motion with a compact set of SE3 motion bases. Each point’s motion is expressed as a linear combination of these bases, facilitating soft decomposition of the scene into multiple rigidly-moving groups. Second, we utilize a comprehensive set of data-driven priors, including monocular depth maps and long-range 2D tracks, and devise a method to effectively consolidate these noisy supervisory signals, resulting in a globally consistent representation of the dynamic scene. Experiments show that our method achieves state-of-the-art performance for both long-range 3D/2D motion estimation and novel view synthesis on dynamic scenes. Project Page:


著者 Qianqian Wang,Vickie Ye,Hang Gao,Jake Austin,Zhengqi Li,Angjoo Kanazawa
発行日 2024-07-18 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク