Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

要約

ゼロショットメトリック単眼深度推定の基礎モデルを提示します。
私たちのモデルである深度プロは、比類のないシャープネスと高周波の詳細を備えた高解像度の深度マップを合成します。
予測は、カメラからのメタデータの入手可能性に依存することなく、絶対スケールのメトリックです。
モデルは高速で、標準GPUで0.3秒で2.25メガピクセルの深度マップを生成します。
これらの特性は、密な予測のための効率的なマルチスケールビジョン変圧器、実質的および合成データセットを組み合わせて微細境界の精度を実現するトレーニングプロトコル、推定された深さマップの境界精度の専用評価メトリック、および単一の画像からの最先端の焦点長さの推定を含む、多くの技術的貢献によって有効になっています。
広範な実験は、特定の設計の選択肢を分析し、深さプロが複数の次元に沿って以前の作業よりも優れていることを示しています。
https://github.com/apple/ml-depth-proでコードとウェイトをリリースします

要約(オリジナル)

We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro

arxiv情報

著者 Aleksei Bochkovskii,Amaël Delaunoy,Hugo Germain,Marcel Santos,Yichao Zhou,Stephan R. Richter,Vladlen Koltun
発行日 2025-04-21 12:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク