GEDepth: Ground Embedding for Monocular Depth Estimation

要約

同じ 2D 画像が無限の 3D シーンから投影される可能性があるため、単眼の奥行き推定は不適切な問題です。
この分野の主要なアルゴリズムは大幅な改善を報告していますが、基本的に画像観察とカメラ パラメータの特定の組み合わせ (つまり、内部パラメータと外部パラメータ) に合わせており、現実世界のシナリオでの一般化可能性が大きく制限されています。
この課題に対処するために、この論文では、カメラパラメータを絵の手がかりから分離し、一般化機能を促進する新しい地面埋め込みモジュールを提案します。
カメラパラメータが与えられると、提案されたモジュールは地表深度を生成します。これは入力画像とスタックされ、最終的な深度予測で参照されます。
地面の深さと残りの深さを最適に組み合わせるために、地面の注意がモジュール内に設計されています。
当社の地面埋め込みは柔軟性が高く、軽量であるため、さまざまな深度推定ネットワークに統合しやすいプラグイン モジュールが実現します。
実験の結果、私たちのアプローチが一般的なベンチマークで最先端の結果を達成し、さらに重要なことに、幅広いクロスドメイン テストで汎用性が大幅に向上したことが明らかになりました。

要約(オリジナル)

Monocular depth estimation is an ill-posed problem as the same 2D image can be projected from infinite 3D scenes. Although the leading algorithms in this field have reported significant improvement, they are essentially geared to the particular compound of pictorial observations and camera parameters (i.e., intrinsics and extrinsics), strongly limiting their generalizability in real-world scenarios. To cope with this challenge, this paper proposes a novel ground embedding module to decouple camera parameters from pictorial cues, thus promoting the generalization capability. Given camera parameters, the proposed module generates the ground depth, which is stacked with the input image and referenced in the final depth prediction. A ground attention is designed in the module to optimally combine ground depth with residual depth. Our ground embedding is highly flexible and lightweight, leading to a plug-in module that is amenable to be integrated into various depth estimation networks. Experiments reveal that our approach achieves the state-of-the-art results on popular benchmarks, and more importantly, renders significant generalization improvement on a wide range of cross-domain tests.

arxiv情報

著者 Xiaodong Yang,Zhuang Ma,Zhiyu Ji,Zhe Ren
発行日 2023-09-18 17:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク