SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model

要約

単眼計量深度推定 (MMDE) の一般化は長年の課題でした。
最近の方法は、相対深度とメートル深度を組み合わせたり、入力画像の焦点距離を調整したりすることで進歩しました。
しかし、依然としてカメラ、シーン、データ レベルでの課題に悩まされています。(1) さまざまなカメラに対する感度。
(2) シーン間で精度が一貫していない。
(3) 膨大なトレーニング データへの依存。
この文書では、単一ネットワーク内で上記のすべての問題に対処するシームレスな MMDE 手法である SM4Depth を提案します。
まず、一貫した視野 (FOV) がカメラ間の「測定基準の曖昧さ」を解決する鍵であることを明らかにし、これにより、より単純な前処理ユニットを提案することができます。
次に、シーン全体で一貫して高い精度を達成するために、深度間隔をビンに離散化することでメトリック スケールの決定を明示的にモデル化し、変動ベースの非正規化深度ビンを提案します。
この方法は、従来のメトリック ビンのあいまいさを軽減することで、さまざまなシーンの深さのギャップを埋めます。
第三に、膨大なトレーニング データへの依存を減らすために、「分割統治」ソリューションを提案します。
複雑さを軽減するために、広大な解空間から直接推定する代わりに、複数の解サブ空間から正しいメトリック ビンが推定されます。
最後に、SM4Depth は、わずか 150K RGB-D ペアとトレーニング用の消費者グレードの GPU を使用して、これまで見たことのないほとんどのデータセットで最先端のパフォーマンスを達成し、特に mRI$_\theta$ では ZoeDepth と Metric3D を上回ります。
コードは https://github.com/1hao-Liu/SM4Depth にあります。

要約(オリジナル)

The generalization of monocular metric depth estimation (MMDE) has been a longstanding challenge. Recent methods made progress by combining relative and metric depth or aligning input image focal length. However, they are still beset by challenges in camera, scene, and data levels: (1) Sensitivity to different cameras; (2) Inconsistent accuracy across scenes; (3) Reliance on massive training data. This paper proposes SM4Depth, a seamless MMDE method, to address all the issues above within a single network. First, we reveal that a consistent field of view (FOV) is the key to resolve “metric ambiguity” across cameras, which guides us to propose a more straightforward preprocessing unit. Second, to achieve consistently high accuracy across scenes, we explicitly model the metric scale determination as discretizing the depth interval into bins and propose variation-based unnormalized depth bins. This method bridges the depth gap of diverse scenes by reducing the ambiguity of the conventional metric bin. Third, to reduce the reliance on massive training data, we propose a “divide and conquer’ solution. Instead of estimating directly from the vast solution space, the correct metric bins are estimated from multiple solution sub-spaces for complexity reduction. Finally, with just 150K RGB-D pairs and a consumer-grade GPU for training, SM4Depth achieves state-of-the-art performance on most previously unseen datasets, especially surpassing ZoeDepth and Metric3D on mRI$_\theta$. The code can be found at https://github.com/1hao-Liu/SM4Depth.

arxiv情報

著者 Yihao Liu,Feng Xue,Anlong Ming
発行日 2024-03-13 14:08:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク