FSP-Laplace: Function-Space Priors for the Laplace Approximation in Bayesian Deep Learning

要約

ラプラス近似は、ニューラル ネットワークの予測を変更せずに適用でき、大規模なモデルやデータセットに拡張できるため、ディープ ネットワークに認識論的不確実性の推定を与えるための一般的な手法です。
事前分布の選択は結果の事後分布に強く影響しますが、計算の扱いやすさと重み空間の解釈可能性の欠如により、通常、ラプラス近似は等方性ガウス事前分布に制限され、深さが増すにつれて病理学的動作を引き起こすことが知られています。
解決策として、事前確率を関数空間に直接配置します。
より正確には、ルベーグ密度は無限次元関数空間には存在しないため、事前にガウス過程 (GP) で表現可能な関数空間に制限された事後測度のいわゆる弱モードを見つけるようにトレーニングを作り直す必要があります。
ニューラルネットワーク。
GP プライアを使用すると、深いネットワークの一般化を可能にする暗黙的な誘導バイアスを利用しながら、規則性や周期性などの構造化された解釈可能な誘導バイアスを関数空間で直接表現できます。
モデルの線形化後、トレーニング目標により負の対数事後密度が誘導され、行列のない線形代数による拡張性の高い手法を活用して、ラプラス近似を適用します。
私たちの方法は、たとえば多くの科学的推論タスクなど、事前知識が豊富な場合に改善された結果を提供します。
同時に、ニューラル ネットワークが通常優れているブラックボックス回帰および分類タスクにおいても競争力を維持します。

要約(オリジナル)

Laplace approximations are popular techniques for endowing deep networks with epistemic uncertainty estimates as they can be applied without altering the predictions of the neural network, and they scale to large models and datasets. While the choice of prior strongly affects the resulting posterior distribution, computational tractability and lack of interpretability of weight space typically limit the Laplace approximation to isotropic Gaussian priors, which are known to cause pathological behavior as depth increases. As a remedy, we directly place a prior on function space. More precisely, since Lebesgue densities do not exist on infinite-dimensional function spaces, we have to recast training as finding the so-called weak mode of the posterior measure under a Gaussian process (GP) prior restricted to the space of functions representable by the neural network. Through the GP prior, one can express structured and interpretable inductive biases, such as regularity or periodicity, directly in function space, while still exploiting the implicit inductive biases that allow deep networks to generalize. After model linearization, the training objective induces a negative log-posterior density to which we apply a Laplace approximation, leveraging highly scalable methods from matrix-free linear algebra. Our method provides improved results where prior knowledge is abundant, e.g., in many scientific inference tasks. At the same time, it stays competitive for black-box regression and classification tasks where neural networks typically excel.

arxiv情報

著者 Tristan Cinquin,Marvin Pförtner,Vincent Fortuin,Philipp Hennig,Robert Bamler
発行日 2024-07-18 17:08:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク