Evaluating Uncertainty in Deep Gaussian Processes

要約

信頼できる不確実性の推定値は、現代の機械学習において重要です。
ディープガウスプロセス(DGPS)およびディープシグマポイントプロセス(DSPP)はGPSを階層的に拡張し、ベイジアンの原理に基づいた不確実性の定量化の有望な方法を提供します。
ただし、ディープアンサンブルのようなベースラインと比較して、分布シフト下での経験的キャリブレーションと堅牢性は留まられたままです。
この作業は、これらのモデルを回帰(CASPデータセット)および分類(ESRデータセット)タスクで評価し、予測パフォーマンス(MAE、Accuracy)、ネガティブログリケリ(NLL)および予想キャリブレーションエラー(ECE)を使用したキャリブレーション、およびさまざまな合成特徴レベルの分布シフトの下での堅牢性とともに評価します。
結果は、DSPPがシグマポイント近似を活用する強力な分配内式キャリブレーションを提供することを示しています。
ただし、テストされたシフト下でのパフォーマンスとキャリブレーションの両方で優れた堅牢性を示したディープアンサンブルと比較して、GPベースの方法は脆弱性を示し、観察されたメトリックに特定の感度を示しました。
私たちの調査結果は、堅牢なベースラインとしてアンサンブルを強調しており、深いGPメソッドは良好な分散型式キャリブレーションを提供する一方で、分布シフト下での実際的な堅牢性には慎重な評価が必要であることを示唆しています。
再現性を促進するために、https://github.com/matthjs/xai-gpでコードを利用できるようにします。

要約(オリジナル)

Reliable uncertainty estimates are crucial in modern machine learning. Deep Gaussian Processes (DGPs) and Deep Sigma Point Processes (DSPPs) extend GPs hierarchically, offering promising methods for uncertainty quantification grounded in Bayesian principles. However, their empirical calibration and robustness under distribution shift relative to baselines like Deep Ensembles remain understudied. This work evaluates these models on regression (CASP dataset) and classification (ESR dataset) tasks, assessing predictive performance (MAE, Accu- racy), calibration using Negative Log-Likelihood (NLL) and Expected Calibration Error (ECE), alongside robustness under various synthetic feature-level distribution shifts. Results indicate DSPPs provide strong in-distribution calibration leveraging their sigma point approximations. However, compared to Deep Ensembles, which demonstrated superior robustness in both per- formance and calibration under the tested shifts, the GP-based methods showed vulnerabilities, exhibiting particular sensitivity in the observed metrics. Our findings underscore ensembles as a robust baseline, suggesting that while deep GP methods offer good in-distribution calibration, their practical robustness under distribution shift requires careful evaluation. To facilitate reproducibility, we make our code available at https://github.com/matthjs/xai-gp.

arxiv情報

著者 Matthijs van der Lende,Jeremias Lino Ferrao,Niclas Müller-Hof
発行日 2025-04-24 16:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク