Towards Efficient MCMC Sampling in Bayesian Neural Networks by Exploiting Symmetry

要約

タイトル: 対称性を利用したベイズニューラルネットワークにおける効率的MCMCサンプリングの実現

要約:

– ベイズニューラルネットワークにおけるパラメータ事後密度関数の多様なモード構造や高次元な空間に起因する問題を解決するために、マルコフ連鎖モンテカルロ法(MCMC法)は広く使われてきた。
– しかし、MCMC法は近似的に真の事後分布を回復するには遅すぎると考えられており、大規模な現代的なアーキテクチャに対して高コストとなるといった欠点があった。
– 代替として、特定のパラメータ領域にフォーカスするローカル手法が広く用いられるようになってきた。
– しかし、これらの手法は、定義上、パラメータ事後密度関数の多様性を考慮できない。
– 本研究では、対称性を利用して、正確だが費用の高い手法と安価だが不正確な手法のジレンマを緩和することができると主張している。
– 対称性は、ニューロンの相互交換性や特定の活性化関数によって誘発され、異なるパラメータ値が同じ機能的な出力値をもたらす。
– ベイズニューラルネットワークにおける事後予測密度は、理論的に、対称性のないパラメータ参照集合に制限することができる。
– 更に、機能の多様性を捕捉するために必要なMCMCチェーンの上限値を求めることで、容易なベイズ推論手法を提案する。
– 実験結果から、効率的なサンプリングが実現可能であり、ディープラーニングにおける正確な不確実性の量子化に向けた有望な道を開拓したと結論付けられた。

要約(オリジナル)

Bayesian inference in deep neural networks is challenging due to the high-dimensional, strongly multi-modal parameter posterior density landscape. Markov chain Monte Carlo approaches asymptotically recover the true posterior but are considered prohibitively expensive for large modern architectures. Local methods, which have emerged as a popular alternative, focus on specific parameter regions that can be approximated by functions with tractable integrals. While these often yield satisfactory empirical results, they fail, by definition, to account for the multi-modality of the parameter posterior. In this work, we argue that the dilemma between exact-but-unaffordable and cheap-but-inexact approaches can be mitigated by exploiting symmetries in the posterior landscape. Such symmetries, induced by neuron interchangeability and certain activation functions, manifest in different parameter values leading to the same functional output value. We show theoretically that the posterior predictive density in Bayesian neural networks can be restricted to a symmetry-free parameter reference set. By further deriving an upper bound on the number of Monte Carlo chains required to capture the functional diversity, we propose a straightforward approach for feasible Bayesian inference. Our experiments suggest that efficient sampling is indeed possible, opening up a promising path to accurate uncertainty quantification in deep learning.

arxiv情報

著者 Jonas Gregor Wiese,Lisa Wimmer,Theodore Papamarkou,Bernd Bischl,Stephan Günnemann,David Rügamer
発行日 2023-04-06 07:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク