要約
ラプラス近似は、ニューラル ネットワーク (NN) の閉形式モデル選択の目的を提供します。
重み減衰強度などのハイパーパラメータと連携して NN パラメータを最適化するオンライン バリアントは、ベイジアン深層学習コミュニティで新たな関心を集めています。
ただし、これらの方法は、近似が損失のモードに基づいて実行されるというラプラス方法の重要な前提に違反しており、その健全性に疑問が生じます。
この研究はオンライン ラプラス法を再導出し、定常性の仮定を行わないラプラス証拠のモード補正されたバリアントの変分限界をターゲットにすることを示しています。
オンライン ラプラスとそのモード補正された対応物は定常点を共有します。ここで、1. NN パラメーターは事後最大値であり、ラプラス法の仮定を満たし、2. ハイパーパラメーターはラプラスの証拠を最大化し、オンライン法を動機付けます。
我々は、これらの最適値が、UCI 回帰データセットのフルバッチ勾配降下法を使用するオンライン アルゴリズムによって実際にほぼ達成されることを実証します。
最適化されたハイパーパラメーターは過剰適合を防止し、検証ベースの早期停止よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
The Laplace approximation provides a closed-form model selection objective for neural networks (NN). Online variants, which optimise NN parameters jointly with hyperparameters, like weight decay strength, have seen renewed interest in the Bayesian deep learning community. However, these methods violate Laplace’s method’s critical assumption that the approximation is performed around a mode of the loss, calling into question their soundness. This work re-derives online Laplace methods, showing them to target a variational bound on a mode-corrected variant of the Laplace evidence which does not make stationarity assumptions. Online Laplace and its mode-corrected counterpart share stationary points where 1. the NN parameters are a maximum a posteriori, satisfying the Laplace method’s assumption, and 2. the hyperparameters maximise the Laplace evidence, motivating online methods. We demonstrate that these optima are roughly attained in practise by online algorithms using full-batch gradient descent on UCI regression datasets. The optimised hyperparameters prevent overfitting and outperform validation-based early stopping.
arxiv情報
著者 | Jihao Andreas Lin,Javier Antorán,José Miguel Hernández-Lobato |
発行日 | 2024-01-09 15:49:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google