Sparsifying Bayesian neural networks with latent binary variables and normalizing flows

要約

【タイトル】 潜在的バイナリ変数と正規化フローを用いたスパースなベイジアンニューラルネットワーク
【要約】
– 人工ニューラルネットワーク(ANNs)は、顔認識、機械翻訳、またがん診断などの様々な現代のアプリケーションで使用されている強力な機械学習手法である。
– ANNsは高い汎化性能を発揮するが、訓練データに過剰適合しやすいという問題を抱えている。これは信頼性の高い不確かさ推定が重要なアプリケーションで特に問題となる。
– ベイジアンニューラルネットワーク(BNN)は、これを改善できるため、パラメータの不確実性を取り入れる。また、潜在的バイナリベイズニューラルネットワーク(LBBNN)は、ウエイトのオン/オフを可能にすることで構造の不確実性を考慮し、ウエイトと構造の共同空間での推論を可能にする。
– 本論文では、LBBNN手法への2つの拡張を考慮する。1つは、隠れユニットを直接サンプリングすることで、より計算効率の良いアルゴリズムが得られること。2つ目は、変分事後分布に正規化フローを使用することで、ネットワークは平均場ガウスよりも柔軟な変分事後分布を学習することができ、よりスパースなネットワークが得られる。
– 2つのシミュレーション研究を実施し、LBBNN法に比べて予測精度が向上し、推定不確かさも現実的に改善されることが示された。1つ目の研究では、ロジスティック回帰の変数選択を考慮し、柔軟な変分分布が結果を改善することが示された。2番目の研究では、2次元ガウス分布から生成されたデータに基づく予測不確かさの比較を行い、ベイジアン法が現実的な推定値をもたらすことを主張した。

要約(オリジナル)

Artificial neural networks (ANNs) are powerful machine learning methods used in many modern applications such as facial recognition, machine translation, and cancer diagnostics. A common issue with ANNs is that they usually have millions or billions of trainable parameters, and therefore tend to overfit to the training data. This is especially problematic in applications where it is important to have reliable uncertainty estimates. Bayesian neural networks (BNN) can improve on this, since they incorporate parameter uncertainty. In addition, latent binary Bayesian neural networks (LBBNN) also take into account structural uncertainty by allowing the weights to be turned on or off, enabling inference in the joint space of weights and structures. In this paper, we will consider two extensions to the LBBNN method: Firstly, by using the local reparametrization trick (LRT) to sample the hidden units directly, we get a more computationally efficient algorithm. More importantly, by using normalizing flows on the variational posterior distribution of the LBBNN parameters, the network learns a more flexible variational posterior distribution than the mean field Gaussian. Experimental results show that this improves predictive power compared to the LBBNN method, while also obtaining more sparse networks. We perform two simulation studies. In the first study, we consider variable selection in a logistic regression setting, where the more flexible variational distribution leads to improved results. In the second study, we compare predictive uncertainty based on data generated from two-dimensional Gaussian distributions. Here, we argue that our Bayesian methods lead to more realistic estimates of predictive uncertainty.

arxiv情報

著者 Lars Skaaret-Lund,Geir Storvik,Aliaksandr Hubin
発行日 2023-05-05 09:40:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 05A16, 60J22, 62-02, 62-09, 62F07, 62F15, 62J05, 62J12, 62J99, 62M05, 90C27, 90C59, 92D20, cs.LG, G.1.6, stat.CO, stat.ME, stat.ML パーマリンク