High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation

要約

タイトル:モノクル・デプス・エスティメーションのための高解像度合成RGB-Dデータセット
要約:
・正確な深度マップは、自律走行、シーン再現、ポイントクラウド作成など、様々なアプリケーションにおいて重要である。
・しかしながら、モノクル・デプス・エスティメーション(MDE)アルゴリズムは、しばしば十分なテクスチャと鮮明さを提供せず、均一なシーンにおいては不一致である。
・これらのアルゴリズムは主にCNNまたはビジョン・トランスフォーマーを用いたアーキテクチャを使用し、監視されたトレーニングのための大規模データセットを必要とするが、利用可能な深度データセットでトレーニングされたMDEアルゴリズムは一般的に一般化ができず、現実世界の多様なシーンにおいて正確なパフォーマンスを発揮しない。
・さらに、グラウンド・トゥルース・デプス・マップは低解像度またはスパースであり、比較的一定しない深度マップをもたらす。
・高画質かつピクセル単位の正確な深さ予測のための高解像度グラウンド・トゥルース・データセットを取得することは、高コストで時間がかかる課題である。
・本論文では、Grand Theft Auto(GTA-V)からの高解像度合成深度データセット(HRSD)を生成し、1920 X 1080の次元で100,000枚のカラー画像と対応する密なグラウンド・トゥルース・デプス・マップを含む。
・提案された合成データセットに対して、現在の最先端のトランスフォーマーを使用したMDEアルゴリズムであるDPTアルゴリズムをトレーニングし、異なるシーンでの深度マップの精度を9%向上させることを実験と分析で示した。
・合成データセットは解像度が高いため、トランスフォーマー・エンコーダに機能抽出モジュールを追加し、アテンションベースのロスを組み入れることを提案し、精度をさらに15%向上させた。

要約(オリジナル)

Accurate depth maps are essential in various applications, such as autonomous driving, scene reconstruction, point-cloud creation, etc. However, monocular-depth estimation (MDE) algorithms often fail to provide enough texture & sharpness, and also are inconsistent for homogeneous scenes. These algorithms mostly use CNN or vision transformer-based architectures requiring large datasets for supervised training. But, MDE algorithms trained on available depth datasets do not generalize well and hence fail to perform accurately in diverse real-world scenes. Moreover, the ground-truth depth maps are either lower resolution or sparse leading to relatively inconsistent depth maps. In general, acquiring a high-resolution ground truth dataset with pixel-level precision for accurate depth prediction is an expensive, and time-consuming challenge. In this paper, we generate a high-resolution synthetic depth dataset (HRSD) of dimension 1920 X 1080 from Grand Theft Auto (GTA-V), which contains 100,000 color images and corresponding dense ground truth depth maps. The generated datasets are diverse and have scenes from indoors to outdoors, from homogeneous surfaces to textures. For experiments and analysis, we train the DPT algorithm, a state-of-the-art transformer-based MDE algorithm on the proposed synthetic dataset, which significantly increases the accuracy of depth maps on different scenes by 9 %. Since the synthetic datasets are of higher resolution, we propose adding a feature extraction module in the transformer encoder and incorporating an attention-based loss, further improving the accuracy by 15 %.

arxiv情報

著者 Aakash Rajpal,Noshaba Cheema,Klaus Illgner-Fehns,Philipp Slusallek,Sunil Jaiswal
発行日 2023-05-02 19:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク