要約
画像から動的な 3D シーンを理解する方法を学ぶことは、ロボット工学からシーンの再構築に至るまでのアプリケーションにとって非常に重要です。
しかし、大規模な教師ありトレーニングによって急速な進歩が可能になった他の問題とは異なり、3D モーションを回復するための直接教師手法は、グラウンド トゥルース アノテーションを取得することが根本的に難しいため、依然として困難です。
私たちは、インターネットの立体広角ビデオから高品質の 4D 再構成をマイニングするシステムを紹介します。
私たちのシステムは、カメラの姿勢推定、ステレオ深度推定、および時間追跡手法の出力を融合およびフィルタリングして、高品質の動的 3D 再構成を生成します。
この方法を使用して、長期の運動軌跡を含む世界的に一貫した疑似計量 3D 点群の形式で大規模なデータを生成します。
現実世界の画像ペアから構造と 3D モーションを予測するために DUSt3R のバリアントをトレーニングすることで、このデータの有用性を実証します。これは、再構成されたデータのトレーニングにより、現実世界の多様なシーンへの一般化が可能になることを示しています。
プロジェクトページ:https://stereo4d.github.io
要約(オリジナル)
Learning to understand dynamic 3D scenes from imagery is crucial for applications ranging from robotics to scene reconstruction. Yet, unlike other problems where large-scale supervised training has enabled rapid progress, directly supervising methods for recovering 3D motion remains challenging due to the fundamental difficulty of obtaining ground truth annotations. We present a system for mining high-quality 4D reconstructions from internet stereoscopic, wide-angle videos. Our system fuses and filters the outputs of camera pose estimation, stereo depth estimation, and temporal tracking methods into high-quality dynamic 3D reconstructions. We use this method to generate large-scale data in the form of world-consistent, pseudo-metric 3D point clouds with long-term motion trajectories. We demonstrate the utility of this data by training a variant of DUSt3R to predict structure and 3D motion from real-world image pairs, showing that training on our reconstructed data enables generalization to diverse real-world scenes. Project page: https://stereo4d.github.io
arxiv情報
著者 | Linyi Jin,Richard Tucker,Zhengqi Li,David Fouhey,Noah Snavely,Aleksander Holynski |
発行日 | 2024-12-12 18:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google