Understanding the Trade-offs in Accuracy and Uncertainty Quantification: Architecture and Inference Choices in Bayesian Neural Networks

要約

最新のニューラルネットワークがより複雑になるにつれて、高い予測パフォーマンスと音の不確実性の定量化を備えたモデルを指定することが、より困難なタスクになります。
ベイジアンニューラルネットワークの真の事後予測分布に関するいくつかの有望な理論的結果にもかかわらず、最も一般的に使用される後方近似の特性はしばしば疑問視されます。
計算上の負担と扱いにくい事後は、誤ったベイジアンニューラルネットワークを精度の低下と信頼できない不確実性の推定値にさらします。
おおよそのベイジアン推論は、未知で扱いにくい後部分布を、いくつかのよりシンプルだが実行可能な分布に置き換えることを目的としています。
現代の深いモデルの寸法は、識別可能性の欠如と相まって、マルコフチェーンモンテカルロ(MCMC)を非常に高価にし、マルチモーダル後部を完全に探索することができません。
一方、変動推論は、計算の複雑さの改善による利点がありますが、サンプリングベースの推論の漸近保証が欠けており、単一モードに集中する傾向があります。
両方のアプローチのパフォーマンスは、建築の選択に大きく依存します。
このペーパーは、大きな幅やサンプル外データを含むさまざまなシナリオでの計算コスト、精度、不確実性の定量化を考慮することにより、これにいくらかの光を当てることを目的としています。
事後探査を改善するために、さまざまなモデルの平均化とアンサンてテクニックが研究され、予測パフォーマンスに関する利点があります。
私たちの実験では、変分推論は全体的にMCMCよりも不確実性の定量化が改善されました。
さらに、変動近似のスタッキングとアンサンブルは、大幅に削減されたコストでMCMCに匹敵する精度を提供しました。

要約(オリジナル)

As modern neural networks get more complex, specifying a model with high predictive performance and sound uncertainty quantification becomes a more challenging task. Despite some promising theoretical results on the true posterior predictive distribution of Bayesian neural networks, the properties of even the most commonly used posterior approximations are often questioned. Computational burdens and intractable posteriors expose miscalibrated Bayesian neural networks to poor accuracy and unreliable uncertainty estimates. Approximate Bayesian inference aims to replace unknown and intractable posterior distributions with some simpler but feasible distributions. The dimensions of modern deep models, coupled with the lack of identifiability, make Markov chain Monte Carlo (MCMC) tremendously expensive and unable to fully explore the multimodal posterior. On the other hand, variational inference benefits from improved computational complexity but lacks the asymptotical guarantees of sampling-based inference and tends to concentrate around a single mode. The performance of both approaches heavily depends on architectural choices; this paper aims to shed some light on this by considering the computational costs, accuracy and uncertainty quantification in different scenarios including large width and out-of-sample data. To improve posterior exploration, different model averaging and ensembling techniques are studied, along with their benefits on predictive performance. In our experiments, variational inference overall provided better uncertainty quantification than MCMC; further, stacking and ensembles of variational approximations provided comparable accuracy to MCMC at a much-reduced cost.

arxiv情報

著者 Alisa Sheinkman,Sara Wade
発行日 2025-06-17 16:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク