Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation

要約

単一の 2D 画像から奥行きを推定することは、通常、奥行き知覚に必要なステレオまたはマルチビュー データが不足しているため、困難な作業です。
最先端のアーキテクチャにおける主な課題は、予測が困難なことが多い複雑なオブジェクトやきめ細かい詳細を効率的にキャプチャすることです。
このペーパーでは、Inception-ResNet-v2 モデルがエンコーダーとして機能する、強化されたエンコーダー/デコーダー アーキテクチャを使用した新しい深層学習ベースのアプローチを紹介します。
これは、Inception-ResNet-v2 を単眼深度推定用のエンコーダーとして利用した最初の例であり、以前のモデルと比べてパフォーマンスが向上していることが実証されています。
マルチスケールの特徴抽出が組み込まれており、さまざまなオブジェクトのサイズや距離にわたる深さの予測精度が向上します。
深度損失、勾配エッジ損失、および構造類似性指数測定 (SSIM) 損失で構成される複合損失関数を提案します。微調整された重みを使用して加重和を最適化し、深度推定のさまざまな側面にわたるバランスを確保します。
KITTI データセットの実験結果は、私たちのモデルが 0.019 秒という大幅に高速な推論時間を達成し、良好な精度を維持しながら効率においてビジョン トランスフォーマーを上回っていることを示しています。
NYU Depth V2 データセットでは、このモデルは、$\ の絶対相対誤差 (ARE) が 0.064、二乗平均平方根誤差 (RMSE) が 0.228、精度が 89.3% という最先端のパフォーマンスを確立しています。
デルタ$ < 1.25。 これらのメトリクスは、私たちのモデルが困難なシナリオでも深さを正確かつ効率的に予測でき、リアルタイム アプリケーションに実用的なソリューションを提供できることを示しています。

要約(オリジナル)

Estimating depth from a single 2D image is a challenging task due to the lack of stereo or multi-view data, which are typically required for depth perception. In state-of-the-art architectures, the main challenge is to efficiently capture complex objects and fine-grained details, which are often difficult to predict. This paper introduces a novel deep learning-based approach using an enhanced encoder-decoder architecture, where the Inception-ResNet-v2 model serves as the encoder. This is the first instance of utilizing Inception-ResNet-v2 as an encoder for monocular depth estimation, demonstrating improved performance over previous models. It incorporates multi-scale feature extraction to enhance depth prediction accuracy across various object sizes and distances. We propose a composite loss function comprising depth loss, gradient edge loss, and Structural Similarity Index Measure (SSIM) loss, with fine-tuned weights to optimize the weighted sum, ensuring a balance across different aspects of depth estimation. Experimental results on the KITTI dataset show that our model achieves a significantly faster inference time of 0.019 seconds, outperforming vision transformers in efficiency while maintaining good accuracy. On the NYU Depth V2 dataset, the model establishes state-of-the-art performance, with an Absolute Relative Error (ARE) of 0.064, a Root Mean Square Error (RMSE) of 0.228, and an accuracy of 89.3% for $\delta$ < 1.25. These metrics demonstrate that our model can accurately and efficiently predict depth even in challenging scenarios, providing a practical solution for real-time applications.

arxiv情報

著者 Dabbrata Das,Argho Deb Das,Farhan Sadaf
発行日 2025-01-23 17:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク