Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image

要約

画像から正確な 3D シーンを再構築することは、長年にわたるビジョンの課題です。
単一画像再構成問題は姿勢が悪いため、確立された手法のほとんどはマルチビュー ジオメトリに基づいて構築されています。
最新の (SOTA) 単眼メトリック深度推定方法は、単一のカメラ モデルのみを処理でき、メトリックの曖昧さのため混合データ トレーニングを実行できません。
一方、大規模な混合データセットでトレーニングされた SOTA 単眼手法は、アフィン不変の深さを学習することでゼロショット汎化を達成しますが、現実世界のメトリクスを復元することはできません。
この研究では、ゼロショット シングルビュー メトリクス深度モデルの鍵は、大規模なデータ トレーニングとさまざまなカメラ モデルからのメトリクスの曖昧性の解決の組み合わせにあることを示します。
我々は、曖昧さの問題に明示的に対処し、既存の単眼モデルに簡単に組み込むことができる標準的なカメラ空間変換モジュールを提案します。
当社のモジュールを装備すると、単眼モデルを数千のカメラ モデルを使用した 800 万以上の画像で安定してトレーニングでき、その結果、目に見えないカメラ設定を使用した実際の画像をゼロショットで一般化できます。
実験では、7 つのゼロショット ベンチマークでこのメソッドの SOTA パフォーマンスを実証します。
特に、私たちの手法は第 2 回単眼深度推定チャレンジで優勝しました。
私たちの手法により、ランダムに収集されたインターネット画像からメトリック 3D 構造を正確に復元でき、妥当な単一画像計測への道が開かれます。
潜在的な利点は下流のタスクにも拡張され、モデルをプラグインするだけで大​​幅に改善できます。
たとえば、私たちのモデルは単眼 SLAM のスケール ドリフトの問題を軽減し (図 1)、高品質のメートルスケールの高密度マッピングにつながります。
コードは https://github.com/Yvanying/Metric3D で入手できます。

要約(オリジナル)

Reconstructing accurate 3D scenes from images is a long-standing vision task. Due to the ill-posedness of the single-image reconstruction problem, most well-established methods are built upon multi-view geometry. State-of-the-art (SOTA) monocular metric depth estimation methods can only handle a single camera model and are unable to perform mixed-data training due to the metric ambiguity. Meanwhile, SOTA monocular methods trained on large mixed datasets achieve zero-shot generalization by learning affine-invariant depths, which cannot recover real-world metrics. In this work, we show that the key to a zero-shot single-view metric depth model lies in the combination of large-scale data training and resolving the metric ambiguity from various camera models. We propose a canonical camera space transformation module, which explicitly addresses the ambiguity problems and can be effortlessly plugged into existing monocular models. Equipped with our module, monocular models can be stably trained with over 8 million images with thousands of camera models, resulting in zero-shot generalization to in-the-wild images with unseen camera settings. Experiments demonstrate SOTA performance of our method on 7 zero-shot benchmarks. Notably, our method won the championship in the 2nd Monocular Depth Estimation Challenge. Our method enables the accurate recovery of metric 3D structures on randomly collected internet images, paving the way for plausible single-image metrology. The potential benefits extend to downstream tasks, which can be significantly improved by simply plugging in our model. For example, our model relieves the scale drift issues of monocular-SLAM (Fig. 1), leading to high-quality metric scale dense mapping. The code is available at https://github.com/YvanYin/Metric3D.

arxiv情報

著者 Wei Yin,Chi Zhang,Hao Chen,Zhipeng Cai,Gang Yu,Kaixuan Wang,Xiaozhi Chen,Chunhua Shen
発行日 2023-07-20 16:14:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク