A Critical Synthesis of Uncertainty Quantification and Foundation Models in Monocular Depth Estimation


不確実性の定量化は、これらの制限に対処し、信頼できる展開を可能にする有望な取り組みとして浮上しているため、5 つの異なる不確実性定量化手法を現在の最先端の DepthAnythingV2 基盤モデルと融合させています。
広範囲のメトリクス深度ドメインをカバーするために、4 つの多様なデータセットでパフォーマンスを評価します。
私たちの調査結果では、ガウス負対数尤度損失 (GNLL) を使用した微調整が特に有望なアプローチであることが特定され、トレーニングと推論時間の両方を網羅し、ベースラインと同等の予測パフォーマンスと計算効率を維持しながら、信頼できる不確実性の推定値を提供します。
不確実性の定量化と基礎モデルのこの重要な統合を、セマンティック セグメンテーションやポーズ推定などの他の重要なタスクに拡張することは、より安全で信頼性の高いマシン ビジョン システムを実現する素晴らしい機会をもたらします。


While recent foundation models have enabled significant breakthroughs in monocular depth estimation, a clear path towards safe and reliable deployment in the real-world remains elusive. Metric depth estimation, which involves predicting absolute distances, poses particular challenges, as even the most advanced foundation models remain prone to critical errors. Since quantifying the uncertainty has emerged as a promising endeavor to address these limitations and enable trustworthy deployment, we fuse five different uncertainty quantification methods with the current state-of-the-art DepthAnythingV2 foundation model. To cover a wide range of metric depth domains, we evaluate their performance on four diverse datasets. Our findings identify fine-tuning with the Gaussian Negative Log-Likelihood Loss (GNLL) as a particularly promising approach, offering reliable uncertainty estimates while maintaining predictive performance and computational efficiency on par with the baseline, encompassing both training and inference time. By fusing uncertainty quantification and foundation models within the context of monocular depth estimation, this paper lays a critical foundation for future research aimed at improving not only model performance but also its explainability. Extending this critical synthesis of uncertainty quantification and foundation models into other crucial tasks, such as semantic segmentation and pose estimation, presents exciting opportunities for safer and more reliable machine vision systems.


著者 Steven Landgraf,Rongjun Qin,Markus Ulrich
発行日 2025-01-14 15:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク