Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation

要約

単一の2D画像からの深さを推定することは、ステレオまたはマルチビューデータが不足しているため、困難なタスクです。これは、深さの知覚に通常必要です。
最先端のアーキテクチャでは、主な課題は、複雑なオブジェクトと微調整された詳細を効率的にキャプチャすることです。
このペーパーでは、Inception-Resnet-V2モデルがエンコーダとして機能する拡張エンコーダデコーダーアーキテクチャを使用して、新しいディープラーニングベースのアプローチを紹介します。
これは、Inception-Resnet-V2を単眼深度推定のエンコーダーとして利用し、以前のモデルでのパフォーマンスの向上を実証する最初のインスタンスです。
マルチスケールの特徴抽出が組み込まれており、さまざまなオブジェクトのサイズと距離にわたって深さ予測の精度を高めます。
深さ損失、勾配エッジ損失、構造類似性インデックス測定(SSIM)損失を含む複合損失関数を提案し、重み付けされた合計を最適化するための微調整された重みを提案し、深さ推定のさまざまな側面にわたってバランスを確保します。
Kitti Datasetの実験結果は、モデルが0.019秒の大幅な推論時間を達成し、優れた精度を維持しながら効率の視力変圧器を上回ることを示しています。
NYU深度V2データセットでは、モデルは最先端のパフォーマンスを確立し、絶対相対誤差(ARE)、0.228のルート平均平方根誤差(RMSE)、$ \の89.3%の精度で確立します。
デルタ$ <1.25。 これらのメトリックは、挑戦的なシナリオでもモデルが正確かつ効率的に深さを予測できることを示しており、リアルタイムアプリケーションの実用的なソリューションを提供します。

要約(オリジナル)

Estimating depth from a single 2D image is a challenging task due to the lack of stereo or multi-view data, which are typically required for depth perception. In state-of-the-art architectures, the main challenge is to efficiently capture complex objects and fine-grained details, which are often difficult to predict. This paper introduces a novel deep learning-based approach using an enhanced encoder-decoder architecture, where the Inception-ResNet-v2 model serves as the encoder. This is the first instance of utilizing Inception-ResNet-v2 as an encoder for monocular depth estimation, demonstrating improved performance over previous models. It incorporates multi-scale feature extraction to enhance depth prediction accuracy across various object sizes and distances. We propose a composite loss function comprising depth loss, gradient edge loss, and Structural Similarity Index Measure (SSIM) loss, with fine-tuned weights to optimize the weighted sum, ensuring a balance across different aspects of depth estimation. Experimental results on the KITTI dataset show that our model achieves a significantly faster inference time of 0.019 seconds, outperforming vision transformers in efficiency while maintaining good accuracy. On the NYU Depth V2 dataset, the model establishes state-of-the-art performance, with an Absolute Relative Error (ARE) of 0.064, a Root Mean Square Error (RMSE) of 0.228, and an accuracy of 89.3% for $\delta$ < 1.25. These metrics demonstrate that our model can accurately and efficiently predict depth even in challenging scenarios, providing a practical solution for real-time applications.

arxiv情報

著者 Dabbrata Das,Argho Deb Das,Farhan Sadaf
発行日 2025-01-24 07:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク