Scalable Stochastic Gradient Riemannian Langevin Dynamics in Non-Diagonal Metrics

要約

確率的勾配サンプリング法は、ニューラル ネットワークでベイジアン推論を実行するためによく使用されます。
微分幾何学の概念が含まれている方法は、リーマン計量が局所的な曲率を考慮することで事後探索を改善し、パフォーマンスが向上する傾向があることが観察されています。
ただし、既存の方法では、計算効率を維持するために単純な対角メトリクスに頼ることがよくあります。
これにより、利益の一部が失われます。
我々は、収束と探索を改善するために確率的勾配サンプラーで使用できる 2 つの非対角メトリクスを提案しますが、対角メトリクスに比べて計算のオーバーヘッドはわずかです。
スパース性を誘発する事前分布を持つ完全接続ニューラル ネットワーク (NN) と相関事前分布を持つ畳み込み NN の場合、これらのメトリクスを使用すると改善が得られることを示します。
他のいくつかの選択肢については、より単純なメトリックについても事後分析は十分に簡単です。

要約(オリジナル)

Stochastic-gradient sampling methods are often used to perform Bayesian inference on neural networks. It has been observed that the methods in which notions of differential geometry are included tend to have better performances, with the Riemannian metric improving posterior exploration by accounting for the local curvature. However, the existing methods often resort to simple diagonal metrics to remain computationally efficient. This loses some of the gains. We propose two non-diagonal metrics that can be used in stochastic-gradient samplers to improve convergence and exploration but have only a minor computational overhead over diagonal metrics. We show that for fully connected neural networks (NNs) with sparsity-inducing priors and convolutional NNs with correlated priors, using these metrics can provide improvements. For some other choices the posterior is sufficiently easy also for the simpler metrics.

arxiv情報

著者 Hanlin Yu,Marcelo Hartmann,Bernardo Williams,Arto Klami
発行日 2023-07-25 15:51:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO パーマリンク