A Systematic Literature Review on Deep Learning-based Depth Estimation in Computer Vision

要約

深度推定 (DE) は、シーンに関する空間情報を提供し、3D 再構成、オブジェクト検出、シーンの理解などのタスクを可能にします。
最近、DE にディープ ラーニング (DL) ベースの手法を使用することへの関心が高まっています。
従来の技術は手作りの機能に依存しているため、さまざまなシーンに一般化するのが難しく、大規模な手動調整が必要になることがよくあります。
ただし、DE の DL モデルは、入力データから関連する特徴を自動的に抽出し、さまざまなシーンの条件に適応し、目に見えない環境にうまく一般化できます。
数多くの DL ベースの手法が開発されているため、最先端 (SOTA) を調査して統合することが必要になっています。
DE に関するこれまでのレビューは、DE を包括的にレビューするのではなく、主に単眼ベースまたはステレオベースの技術に焦点を当てていました。
さらに、私たちの知る限り、DE に包括的に焦点を当てた系統的文献レビュー (SLR) は存在しません。
そこで、このSLR研究が行われています。
当初、電子データベースで関連出版物が検索され、1,284 件の出版物が見つかりました。
定義された除外基準と品質基準を使用して、128 件の出版物が最終候補リストに挙げられ、さらにフィルタリングされて 59 件の質の高い一次研究が選択されました。
これらの研究は、データを抽出し、定義された研究上の質問に答えるために分析されました。
その結果に基づいて、主に 3 つの異なるタイプの DE (単眼、ステレオ、および多視点) に対して DL 手法が開発されました。
DE の DL モデルのトレーニング、テスト、評価には 20 の公開データセットが使用され、最も使用されたデータセットは KITTI、NYU Depth V2、Make 3D でした。
DE のパフォーマンスを評価するために 29 の評価指標が使用されました。
一次研究では 35 の基本モデルが報告され、最もよく使用された上位 5 つの基本モデルは ResNet-50、ResNet-18、ResNet-101、U-Net、および VGG-16 でした。
最後に、グラウンドトゥルースデータの欠如は、一次研究によって報告された最も重大な課題の一つでした。

要約(オリジナル)

Depth estimation (DE) provides spatial information about a scene and enables tasks such as 3D reconstruction, object detection, and scene understanding. Recently, there has been an increasing interest in using deep learning (DL)-based methods for DE. Traditional techniques rely on handcrafted features that often struggle to generalise to diverse scenes and require extensive manual tuning. However, DL models for DE can automatically extract relevant features from input data, adapt to various scene conditions, and generalise well to unseen environments. Numerous DL-based methods have been developed, making it necessary to survey and synthesize the state-of-the-art (SOTA). Previous reviews on DE have mainly focused on either monocular or stereo-based techniques, rather than comprehensively reviewing DE. Furthermore, to the best of our knowledge, there is no systematic literature review (SLR) that comprehensively focuses on DE. Therefore, this SLR study is being conducted. Initially, electronic databases were searched for relevant publications, resulting in 1284 publications. Using defined exclusion and quality criteria, 128 publications were shortlisted and further filtered to select 59 high-quality primary studies. These studies were analysed to extract data and answer defined research questions. Based on the results, DL methods were developed for mainly three different types of DE: monocular, stereo, and multi-view. 20 publicly available datasets were used to train, test, and evaluate DL models for DE, with KITTI, NYU Depth V2, and Make 3D being the most used datasets. 29 evaluation metrics were used to assess the performance of DE. 35 base models were reported in the primary studies, and the top five most-used base models were ResNet-50, ResNet-18, ResNet-101, U-Net, and VGG-16. Finally, the lack of ground truth data was among the most significant challenges reported by primary studies.

arxiv情報

著者 Ali Rohan,Md Junayed Hasan,Andrei Petrovski
発行日 2025-01-09 10:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク