Metric-Solver: Sliding Anchored Metric Depth Estimation from a Single Image

要約

さまざまなコンピュータービジョンアプリケーションでは、正確で一般化可能なメトリック深度推定が重要ですが、屋内および屋外環境で遭遇する多様な深度スケールのために困難なままです。
このホワイトペーパーでは、さまざまなシーンスケールに動的に適応する新しいスライドアンカーベースのメトリック深度推定方法であるMetric-Solverを紹介します。
私たちのアプローチは、アンカーベースの表現を活用します。参照深度は、シーンの深さを分離して正規化し、2つのコンポーネントに正規化するためのアンカーとして機能します。
アンカーは正規化係数として機能し、近距離の深さを一貫した範囲内で正規化しながら、遠方の深さをゼロにスムーズにマッピングできるようにします。
このアプローチを通じて、シーン内のゼロからインフィニティまでの深さは、統一された表現内で表現でき、シーンスケールのバリエーションを手動で説明する必要性を効果的に排除できます。
さらに重要なことに、同じシーンでは、アンカーは深さ軸に沿ってスライドし、異なる深さスケールに動的に調整できることです。
小さいアンカーは近距離でより高い解像度を提供し、より近いオブジェクトの深さ精度を改善しますが、より大きなアンカーは遠い領域の深さ推定を改善します。
この適応性により、モデルはさまざまな距離で深さ予測を処理し、データセット全体の強力な一般化を確保できます。
当社の設計により、多様な環境にわたる統一された適応的な深さ表現が可能になります。
広範な実験では、メートリックソルバーが精度とクロスダタセットの一般化の両方で既存の方法よりも優れていることが示されています。

要約(オリジナル)

Accurate and generalizable metric depth estimation is crucial for various computer vision applications but remains challenging due to the diverse depth scales encountered in indoor and outdoor environments. In this paper, we introduce Metric-Solver, a novel sliding anchor-based metric depth estimation method that dynamically adapts to varying scene scales. Our approach leverages an anchor-based representation, where a reference depth serves as an anchor to separate and normalize the scene depth into two components: scaled near-field depth and tapered far-field depth. The anchor acts as a normalization factor, enabling the near-field depth to be normalized within a consistent range while mapping far-field depth smoothly toward zero. Through this approach, any depth from zero to infinity in the scene can be represented within a unified representation, effectively eliminating the need to manually account for scene scale variations. More importantly, for the same scene, the anchor can slide along the depth axis, dynamically adjusting to different depth scales. A smaller anchor provides higher resolution in the near-field, improving depth precision for closer objects while a larger anchor improves depth estimation in far regions. This adaptability enables the model to handle depth predictions at varying distances and ensure strong generalization across datasets. Our design enables a unified and adaptive depth representation across diverse environments. Extensive experiments demonstrate that Metric-Solver outperforms existing methods in both accuracy and cross-dataset generalization.

arxiv情報

著者 Tao Wen,Jiepeng Wang,Yabo Chen,Shugong Xu,Chi Zhang,Xuelong Li
発行日 2025-04-16 14:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク