Log-Concave Coupling for Sampling Neural Net Posteriors

要約

この研究では、単一隠れ層ニューラル ネットワークのサンプリング アルゴリズムを紹介します。
このアルゴリズムは、Greedy Bayes と呼ばれる方法を使用した再帰的な一連のベイズ事後分布に基づいて構築されています。
次元 $d$ のニューロン重みベクトル $w$ のベイズ事後分布のサンプリングは、多峰性のため困難です。
この問題に取り組むためのアルゴリズムは、$w$ の事後密度と補助確率変数 $\xi$ の結合に基づいています。
補助確率変数を与えた場合のニューロン重みの逆条件 $w|\xi$ は、対数凹であることが示されています。
事後分布の構築では、事前分布の選択にある程度の自由を与えます。
特に、分散が適切に小さい $w$ 上のガウス事前確率の場合、結果として得られる補助変数 $\xi$ の周辺密度は、すべての次元 $d$ に対して厳密に対数凹であることが証明されます。
単位 $\ell_1$ ボールの一様事前確率の場合、$\xi$ の密度は十分に大きい $d$ に対して再び厳密に対数凹であるという証拠が与えられます。
補助確率変数 $\xi$ の周辺密度のスコアは $w|\xi$ に対する期待値によって決定されるため、さまざまな高速混合マルコフ連鎖モンテカルロ法によって計算できます。
さらに、 $\xi$ のスコアの計算により、このスコアから構築されたドリフト関数を使用した確率的拡散 (ランジュバン力学) によって $\xi$ をサンプリングする方法が可能になります。
このような力学を利用して、Bakry と Emery が開拓した情報理論的手法は、$\xi$ の密度が実際に厳密に対数凹である場合に、$\xi$ の正確なサンプリングが迅速に得られることを示しています。
その後、$w|\xi$ からもう 1 回描画すると、周辺分布が目的の事後分布から得られるニューロンの重み $w$ が生成されます。

要約(オリジナル)

In this work, we present a sampling algorithm for single hidden layer neural networks. This algorithm is built upon a recursive series of Bayesian posteriors using a method we call Greedy Bayes. Sampling of the Bayesian posterior for neuron weight vectors $w$ of dimension $d$ is challenging because of its multimodality. Our algorithm to tackle this problem is based on a coupling of the posterior density for $w$ with an auxiliary random variable $\xi$. The resulting reverse conditional $w|\xi$ of neuron weights given auxiliary random variable is shown to be log concave. In the construction of the posterior distributions we provide some freedom in the choice of the prior. In particular, for Gaussian priors on $w$ with suitably small variance, the resulting marginal density of the auxiliary variable $\xi$ is proven to be strictly log concave for all dimensions $d$. For a uniform prior on the unit $\ell_1$ ball, evidence is given that the density of $\xi$ is again strictly log concave for sufficiently large $d$. The score of the marginal density of the auxiliary random variable $\xi$ is determined by an expectation over $w|\xi$ and thus can be computed by various rapidly mixing Markov Chain Monte Carlo methods. Moreover, the computation of the score of $\xi$ permits methods of sampling $\xi$ by a stochastic diffusion (Langevin dynamics) with drift function built from this score. With such dynamics, information-theoretic methods pioneered by Bakry and Emery show that accurate sampling of $\xi$ is obtained rapidly when its density is indeed strictly log-concave. After which, one more draw from $w|\xi$, produces neuron weights $w$ whose marginal distribution is from the desired posterior.

arxiv情報

著者 Curtis McDonald,Andrew R Barron
発行日 2024-07-26 15:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク