GenDepth: Generalizing Monocular Depth Estimation for Arbitrary Camera Parameters via Ground Plane Embedding

要約

学習ベースの単眼奥行き推定は、トレーニング データに存在する幾何学的事前分布を利用して、従来の不適切な問題である単一画像からの計量奥行き認識を可能にします。
ただし、これらの事前分布は特定のドメインに固有であることが多く、目に見えないデータに対する一般化パフォーマンスが制限されます。
よく研究されている環境ドメイン ギャップとは別に、単眼奥行き推定はカメラ パラメーターの変化によって引き起こされるドメイン ギャップにも敏感であり、この側面は現在の最先端のアプローチでは見落とされがちです。
この問題は、自動運転シナリオで特に顕著です。通常、データセットは単一の車両カメラ設定で収集され、固定視点ジオメトリによるトレーニング データの偏りにつながります。
このペーパーでは、この傾向に挑戦し、任意の車両カメラ設定に対してメトリック深度推定を実行できる新しいモデルである GenDepth を紹介します。
十分に多様なカメラ パラメーターを備えたデータの不足に対処するために、まず、さまざまな車両カメラ システムで収集されたオーダーメイドの合成データセットを作成します。
次に、2 つの目的を同時に最適化するように GenDepth を設計します。(i) 合成データ上のカメラ パラメーターの変動に対する等分散性、(ii) 固定車両カメラを備えた単一の実世界データセットを使用して、学習した等分散性を実世界の環境特徴に転送する
システム。
これを達成するために、地表の深度としてカメラ パラメータの新しい埋め込みを提案し、これらの埋め込みを敵対的ドメイン アラインメントと統合する新しいアーキテクチャを提示します。
いくつかの自動運転データセットで GenDepth を検証し、さまざまな車載カメラ システムに対する最先端の一般化機能を実証します。

要約(オリジナル)

Learning-based monocular depth estimation leverages geometric priors present in the training data to enable metric depth perception from a single image, a traditionally ill-posed problem. However, these priors are often specific to a particular domain, leading to limited generalization performance on unseen data. Apart from the well studied environmental domain gap, monocular depth estimation is also sensitive to the domain gap induced by varying camera parameters, an aspect that is often overlooked in current state-of-the-art approaches. This issue is particularly evident in autonomous driving scenarios, where datasets are typically collected with a single vehicle-camera setup, leading to a bias in the training data due to a fixed perspective geometry. In this paper, we challenge this trend and introduce GenDepth, a novel model capable of performing metric depth estimation for arbitrary vehicle-camera setups. To address the lack of data with sufficiently diverse camera parameters, we first create a bespoke synthetic dataset collected with different vehicle-camera systems. Then, we design GenDepth to simultaneously optimize two objectives: (i) equivariance to the camera parameter variations on synthetic data, (ii) transferring the learned equivariance to real-world environmental features using a single real-world dataset with a fixed vehicle-camera system. To achieve this, we propose a novel embedding of camera parameters as the ground plane depth and present a novel architecture that integrates these embeddings with adversarial domain alignment. We validate GenDepth on several autonomous driving datasets, demonstrating its state-of-the-art generalization capability for different vehicle-camera systems.

arxiv情報

著者 Karlo Koledić,Luka Petrović,Ivan Petrović,Ivan Marković
発行日 2023-12-10 22:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク