A Critical Synthesis of Uncertainty Quantification and Foundation Models in Monocular Depth Estimation

要約

最近の基礎モデルにより、単眼の深さ推定において大きな進歩が可能になりましたが、現実世界への安全かつ信頼性の高い導入に向けた明確な道筋は依然として見えてきません。
絶対距離の予測を伴うメトリック深さの推定には、最も高度な基礎モデルでも依然として重大なエラーが発生する傾向があるため、特別な課題が生じます。
不確実性の定量化は、これらの制限に対処し、信頼できる展開を可能にする有望な取り組みとして浮上しているため、5 つの異なる不確実性定量化手法を現在の最先端の DepthAnythingV2 基盤モデルと融合させています。
広範囲のメトリクス深度ドメインをカバーするために、4 つの多様なデータセットでパフォーマンスを評価します。
私たちの調査結果では、ガウス負対数尤度損失 (GNLL) を使用した微調整が特に有望なアプローチであることが特定され、トレーニングと推論時間の両方を網羅し、ベースラインと同等の予測パフォーマンスと計算効率を維持しながら、信頼できる不確実性の推定値を提供します。
この論文は、単眼奥行き推定のコンテキスト内で不確実性の定量化と基礎モデルを融合することにより、モデルのパフォーマンスだけでなくその説明可能性の向上を目的とした将来の研究のための重要な基盤を築きます。
不確実性の定量化と基礎モデルのこの重要な統合を、セマンティック セグメンテーションやポーズ推定などの他の重要なタスクに拡張することは、より安全で信頼性の高いマシン ビジョン システムを実現する素晴らしい機会をもたらします。

要約(オリジナル)

While recent foundation models have enabled significant breakthroughs in monocular depth estimation, a clear path towards safe and reliable deployment in the real-world remains elusive. Metric depth estimation, which involves predicting absolute distances, poses particular challenges, as even the most advanced foundation models remain prone to critical errors. Since quantifying the uncertainty has emerged as a promising endeavor to address these limitations and enable trustworthy deployment, we fuse five different uncertainty quantification methods with the current state-of-the-art DepthAnythingV2 foundation model. To cover a wide range of metric depth domains, we evaluate their performance on four diverse datasets. Our findings identify fine-tuning with the Gaussian Negative Log-Likelihood Loss (GNLL) as a particularly promising approach, offering reliable uncertainty estimates while maintaining predictive performance and computational efficiency on par with the baseline, encompassing both training and inference time. By fusing uncertainty quantification and foundation models within the context of monocular depth estimation, this paper lays a critical foundation for future research aimed at improving not only model performance but also its explainability. Extending this critical synthesis of uncertainty quantification and foundation models into other crucial tasks, such as semantic segmentation and pose estimation, presents exciting opportunities for safer and more reliable machine vision systems.

arxiv情報

著者 Steven Landgraf,Rongjun Qin,Markus Ulrich
発行日 2025-01-14 15:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク