iDisc: Internal Discretization for Monocular Depth Estimation

要約

タイトル: 内部離散化を用いた単眼深度推定の iDisc
要約:
– 単眼深度推定は、3Dシーンの理解や下流アプリケーションに基本的であるが、完全な幾何的制約が欠けているため、監視された環境下でも困難であり、不適切である。
– 高次元のパターンが存在するため、シーンは数百万ピクセルから構成されていても、高次元パターンで分割することができる。iDiscは、内部の離散化表現でこれらのパターンを学習することを提案しています。
– 内部離散化(ID)モジュールでは、連続-離散-連続の戦略を使用して、監視無しで概念を学習するための瓶詰めモジュールを実現します。また、提案モデルは、出力される深度に明示的な制約や事前条件を課す必要がないため、現在の最新の手法と異なります。
– 提案ネットワーク全体は、注意力に基づくボトルネックモジュールを使用して、エンドツーエンドでトレーニングすることができます。
– iDiscは、NYU-Depth v2とKITTIの両方で従来の手法よりも優れており、KITTIベンチマークのすべての公開されている手法よりも優れているため、新しい最新の手法です。さらに、表面法線推定でも最新技術を実現しています。
– また、ゼロショットテストによるモデルの汎化能力を調査し、屋外シナリオでの多様性の必要性を示しました。
– DDADとArgoverseの2つの自動運転データセットに分割を導入した。によって実験を行いました。
– コードはhttp://vis.xyz/pub/idiscに公開されています。

要約(オリジナル)

Monocular depth estimation is fundamental for 3D scene understanding and downstream applications. However, even under the supervised setup, it is still challenging and ill-posed due to the lack of full geometric constraints. Although a scene can consist of millions of pixels, there are fewer high-level patterns. We propose iDisc to learn those patterns with internal discretized representations. The method implicitly partitions the scene into a set of high-level patterns. In particular, our new module, Internal Discretization (ID), implements a continuous-discrete-continuous bottleneck to learn those concepts without supervision. In contrast to state-of-the-art methods, the proposed model does not enforce any explicit constraints or priors on the depth output. The whole network with the ID module can be trained end-to-end, thanks to the bottleneck module based on attention. Our method sets the new state of the art with significant improvements on NYU-Depth v2 and KITTI, outperforming all published methods on the official KITTI benchmark. iDisc can also achieve state-of-the-art results on surface normal estimation. Further, we explore the model generalization capability via zero-shot testing. We observe the compelling need to promote diversification in the outdoor scenario. Hence, we introduce splits of two autonomous driving datasets, DDAD and Argoverse. Code is available at http://vis.xyz/pub/idisc .

arxiv情報

著者 Luigi Piccinelli,Christos Sakaridis,Fisher Yu
発行日 2023-04-13 08:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク