Parameter-efficient Bayesian Neural Networks for Uncertainty-aware Depth Estimation

要約

単眼深度推定 (MDE) などの最先端のコンピューター ビジョン タスクは、大規模な最新の Transformer ベースのアーキテクチャに大きく依存しています。
ただし、セーフティ クリティカルな領域でのアプリケーションには、信頼できる予測パフォーマンスと不確実性の定量化が必要です。
ベイジアン ニューラル ネットワークは、これらの要件を満たす概念的に単純なアプローチを提供しますが、パラメーター空間の高次元性という問題があります。
パラメータ効率の良い微調整 (PEFT) 手法、特に低ランク適応 (LoRA) は、低次元の部分空間でパラメータ推論を実行することにより、大規模モデルを下流のタスクに適応させるための一般的な戦略として浮上しています。
この研究では、大規模な Transformer ベースのビジョン モデルにおける部分空間ベイジアン推論に対する PEFT 手法の適合性を調査します。
実際、BitFit、DiffFit、LoRA、および LoRA にヒントを得た新しい PEFT 手法である CoLoRA をベイズ推論と組み合わせることで、MDE でより堅牢で信頼性の高い予測パフォーマンスが可能になることを示します。

要約(オリジナル)

State-of-the-art computer vision tasks, like monocular depth estimation (MDE), rely heavily on large, modern Transformer-based architectures. However, their application in safety-critical domains demands reliable predictive performance and uncertainty quantification. While Bayesian neural networks provide a conceptually simple approach to serve those requirements, they suffer from the high dimensionality of the parameter space. Parameter-efficient fine-tuning (PEFT) methods, in particular low-rank adaptations (LoRA), have emerged as a popular strategy for adapting large-scale models to down-stream tasks by performing parameter inference on lower-dimensional subspaces. In this work, we investigate the suitability of PEFT methods for subspace Bayesian inference in large-scale Transformer-based vision models. We show that, indeed, combining BitFit, DiffFit, LoRA, and CoLoRA, a novel LoRA-inspired PEFT method, with Bayesian inference enables more robust and reliable predictive performance in MDE.

arxiv情報

著者 Richard D. Paul,Alessio Quercia,Vincent Fortuin,Katharina Nöh,Hanno Scharr
発行日 2024-09-25 16:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.ML パーマリンク