DUSt3R: Geometric 3D Vision Made Easy

要約

実際のマルチビュー ステレオ再構成 (MVS) では、最初にカメラ パラメータを推定する必要があります。
内部パラメータと外部パラメータ。
これらは通常、取得するのが面倒で面倒ですが、3D 空間内の対応するピクセルを三角測量するためには必須であり、これはすべての最高のパフォーマンスを発揮する MVS アルゴリズムの中核です。
この研究では、私たちは反対の立場をとり、任意の画像コレクションの高密度で制約のないステレオ 3D 再構成のための根本的に新しいパラダイムである DUSt3R を導入します。つまり、カメラのキャリブレーションや視点ポーズに関する事前情報なしで動作します。
ペアワイズ再構成問題をポイントマップの回帰としてキャストし、通常の射影カメラ モデルの厳しい制約を緩和します。
この定式化が単眼と両眼の再構成ケースをスムーズに統合することを示します。
3 つ以上の画像が提供される場合、共通の参照フレームですべてのペアワイズ ポイントマップを表現する、シンプルかつ効果的なグローバル アラインメント戦略をさらに提案します。
当社のネットワーク アーキテクチャは標準の Transformer エンコーダとデコーダに基づいており、強力な事前トレーニング済みモデルを活用できます。
私たちの定式化はシーンの 3D モデルと深度情報を直接提供しますが、興味深いことに、ピクセルの一致、相対および絶対カメラからシームレスに復元できます。
これらすべてのタスクに関する徹底的な実験により、提案されたDUSt3Rがさまざまな3D視覚タスクを統合し、単眼/多視点の深度推定および相対姿勢推定に新しいSoTAを設定できることが示されました。
要約すると、DUSt3R を使用すると、多くの幾何学的な 3D ビジョン タスクが簡単になります。

要約(オリジナル)

Multi-view stereo reconstruction (MVS) in the wild requires to first estimate the camera parameters e.g. intrinsic and extrinsic parameters. These are usually tedious and cumbersome to obtain, yet they are mandatory to triangulate corresponding pixels in 3D space, which is the core of all best performing MVS algorithms. In this work, we take an opposite stance and introduce DUSt3R, a radically novel paradigm for Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections, i.e. operating without prior information about camera calibration nor viewpoint poses. We cast the pairwise reconstruction problem as a regression of pointmaps, relaxing the hard constraints of usual projective camera models. We show that this formulation smoothly unifies the monocular and binocular reconstruction cases. In the case where more than two images are provided, we further propose a simple yet effective global alignment strategy that expresses all pairwise pointmaps in a common reference frame. We base our network architecture on standard Transformer encoders and decoders, allowing us to leverage powerful pretrained models. Our formulation directly provides a 3D model of the scene as well as depth information, but interestingly, we can seamlessly recover from it, pixel matches, relative and absolute camera. Exhaustive experiments on all these tasks showcase that the proposed DUSt3R can unify various 3D vision tasks and set new SoTAs on monocular/multi-view depth estimation as well as relative pose estimation. In summary, DUSt3R makes many geometric 3D vision tasks easy.

arxiv情報

著者 Shuzhe Wang,Vincent Leroy,Yohann Cabon,Boris Chidlovskii,Jerome Revaud
発行日 2024-12-02 13:00:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク