Entropy-MCMC: Sampling from Flat Basins with Ease

要約

ベイジアン深層学習は事後分布推定の品質を重視します。
ただし、ディープ ニューラル ネットワークの後部は本質的に非常にマルチモーダルであり、ローカル モードはさまざまな一般化パフォーマンスを示します。
実際的な予算を考えると、元の事後分布をターゲットにすると、一部のサンプルが「悪い」モードに閉じ込められ、過剰適合が発生する可能性があるため、最適なパフォーマンスが得られない可能性があります。
一般化誤差が低い「良好な」モードはエネルギー景観の平坦な盆地に存在することが多いという観察を利用して、これらの平坦な領域に向かって事後的にサンプリングをバイアスすることを提案します。
具体的には、MCMC サンプラーを平坦な盆地に導くために、鋭いモードのない平滑化された事後分布に似た定常分布をもつ補助ガイド変数を導入します。
このガイド変数をモデル パラメーターと統合することで、最小限の計算オーバーヘッドで効率的なサンプリングを可能にする単純な結合分布を作成します。
我々の方法の収束を証明し、さらに、強い凸状の設定では、いくつかの既存の平坦性を意識した方法よりも速く収束することを示します。
経験的な結果は、私たちの方法が後部の平坦な盆地から正常にサンプリングでき、分類、キャリブレーション、分布外検出を含む複数のベンチマークで比較されたすべてのベースラインを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Bayesian deep learning counts on the quality of posterior distribution estimation. However, the posterior of deep neural networks is highly multi-modal in nature, with local modes exhibiting varying generalization performance. Given a practical budget, targeting at the original posterior can lead to suboptimal performance, as some samples may become trapped in ‘bad’ modes and suffer from overfitting. Leveraging the observation that ‘good’ modes with low generalization error often reside in flat basins of the energy landscape, we propose to bias sampling on the posterior toward these flat regions. Specifically, we introduce an auxiliary guiding variable, the stationary distribution of which resembles a smoothed posterior free from sharp modes, to lead the MCMC sampler to flat basins. By integrating this guiding variable with the model parameter, we create a simple joint distribution that enables efficient sampling with minimal computational overhead. We prove the convergence of our method and further show that it converges faster than several existing flatness-aware methods in the strongly convex setting. Empirical results demonstrate that our method can successfully sample from flat basins of the posterior, and outperforms all compared baselines on multiple benchmarks including classification, calibration, and out-of-distribution detection.

arxiv情報

著者 Bolian Li,Ruqi Zhang
発行日 2024-02-07 14:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク