要約
画像から動的な3Dシーンを理解することを学ぶことは、ロボット工学からシーンの再構成までのアプリケーションにとって重要です。
しかし、大規模な監視されたトレーニングにより急速な進歩が可能になった他の問題とは異なり、3D運動を回復するための直接的な監督方法は、グラウンドトゥルースアノテーションを取得することの根本的な難しさのために依然として困難です。
インターネットの立体的な広角ビデオから高品質の4D再構成をマイニングするためのシステムを提示します。
当社のシステムは、カメラの出力、ステレオ深度推定、および時間的追跡方法の出力を高品質の動的3D再構成に融合およびフィルタリングします。
この方法を使用して、長期の動きの軌跡を備えた世界的に擬似メトリックな3Dポイント雲の形で大規模なデータを生成します。
私たちは、実際の画像ペアから構造と3Dモーションを予測するためにDust3Rのバリアントをトレーニングすることにより、このデータの有用性を実証し、再構築されたデータのトレーニングにより、一般化が多様な現実世界のシーンに一般化できることを示しています。
プロジェクトページとデータ:https://stereo4d.github.io
要約(オリジナル)
Learning to understand dynamic 3D scenes from imagery is crucial for applications ranging from robotics to scene reconstruction. Yet, unlike other problems where large-scale supervised training has enabled rapid progress, directly supervising methods for recovering 3D motion remains challenging due to the fundamental difficulty of obtaining ground truth annotations. We present a system for mining high-quality 4D reconstructions from internet stereoscopic, wide-angle videos. Our system fuses and filters the outputs of camera pose estimation, stereo depth estimation, and temporal tracking methods into high-quality dynamic 3D reconstructions. We use this method to generate large-scale data in the form of world-consistent, pseudo-metric 3D point clouds with long-term motion trajectories. We demonstrate the utility of this data by training a variant of DUSt3R to predict structure and 3D motion from real-world image pairs, showing that training on our reconstructed data enables generalization to diverse real-world scenes. Project page and data at: https://stereo4d.github.io
arxiv情報
著者 | Linyi Jin,Richard Tucker,Zhengqi Li,David Fouhey,Noah Snavely,Aleksander Holynski |
発行日 | 2025-04-30 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google