Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation

要約

我々はMetric3D v2を紹介する。Metric3D v2は、1枚の画像からゼロショットで奥行きと表面の法線を推定する幾何学的基礎モデルである。奥行きと法線は幾何学的に関連しており、非常に相補的であるが、両者は異なる課題を抱えている。SoTA単眼奥行き法は、アフィン不変奥行きを学習することでゼロショット汎化を達成するが、実世界のメトリックを復元することはできない。一方、SoTA法線推定法は、大規模なラベル付きデータがないため、ゼロショットの性能に限界がある。これらの問題に取り組むため、我々はメトリック深度推定と表面法線推定の両方に対する解決策を提案する。メトリック深度推定については、ゼロショット単一視点モデルの鍵は、様々なカメラモデルと大規模データ学習からメトリックの曖昧性を解決することにあることを示す。我々は、曖昧性問題に明示的に対処し、既存の単眼モデルに容易にプラグインできる、正準カメラ空間変換モジュールを提案する。表面法線推定に関しては、深度-法線最適化モジュールを提案し、メトリック深度から多様なデータ知識を抽出し、法線推定器が法線ラベルを超えて学習できるようにする。これらのモジュールを備えることで、我々の奥行き法線モデルは、異なるタイプのアノテーションを持つ数千のカメラモデルから得られた1600万枚以上の画像を用いて安定的に学習することができ、その結果、未知のカメラ設定を持つ実環境の画像に対してゼロショットで汎化することができる。我々の手法により、ランダムに収集されたインターネット画像からメトリックな3次元構造を正確に復元することが可能となり、もっともらしい単一画像計測への道が拓かれる。我々のプロジェクトページはhttps://JUGGHM.github.io/Metric3Dv2。

要約(オリジナル)

We introduce Metric3D v2, a geometric foundation model for zero-shot metric depth and surface normal estimation from a single image, which is crucial for metric 3D recovery. While depth and normal are geometrically related and highly complimentary, they present distinct challenges. SoTA monocular depth methods achieve zero-shot generalization by learning affine-invariant depths, which cannot recover real-world metrics. Meanwhile, SoTA normal estimation methods have limited zero-shot performance due to the lack of large-scale labeled data. To tackle these issues, we propose solutions for both metric depth estimation and surface normal estimation. For metric depth estimation, we show that the key to a zero-shot single-view model lies in resolving the metric ambiguity from various camera models and large-scale data training. We propose a canonical camera space transformation module, which explicitly addresses the ambiguity problem and can be effortlessly plugged into existing monocular models. For surface normal estimation, we propose a joint depth-normal optimization module to distill diverse data knowledge from metric depth, enabling normal estimators to learn beyond normal labels. Equipped with these modules, our depth-normal models can be stably trained with over 16 million of images from thousands of camera models with different-type annotations, resulting in zero-shot generalization to in-the-wild images with unseen camera settings. Our method enables the accurate recovery of metric 3D structures on randomly collected internet images, paving the way for plausible single-image metrology. Our project page is at https://JUGGHM.github.io/Metric3Dv2.

arxiv情報

著者 Mu Hu,Wei Yin,Chi Zhang,Zhipeng Cai,Xiaoxiao Long,Kaixuan Wang,Hao Chen,Gang Yu,Chunhua Shen,Shaojie Shen
発行日 2025-01-03 15:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク