Variational Deep Learning via Implicit Regularization

要約

現代のディープラーニングモデルは、明示的な正則化をほとんどまたはまったくなしで訓練されているにもかかわらず、非常によく分配することを一般化します。
代わりに、現在の理論は、アーキテクチャ、ハイパーパラメーター、最適化手順の選択によって課される暗黙の正則化を称賛します。
ただし、ディープラーニングモデルを配置すること、順次意思決定タスク、または安全性が批判的なドメインで展開するには、ポイント推定だけでなく、信頼できる不確実性の定量化が必要です。
現代のおおよその推論の機械 – ベイジアンディープラーニング – は、不確実性の定量化の必要性に答える必要がありますが、その有効性は、プライアーを通じて有用な明示的な帰納的バイアスを定義できないことによって挑戦されています。
代わりに、この作業では、理論的および経験的に、標準的なディープラーニングと同様に、最適化手順を介して変動ディープネットワークを暗黙的に正規化する方法を示します。
一般化された変動推論としてオーバーパラメティングされた線形モデルの場合における(確率的)勾配降下の誘導バイアスを完全に特徴付け、パラメーター化の選択の重要性を実証します。
最後に、私たちのアプローチは、追加のハイパーパラメーターを調整せずに、標準的な深い学習よりも最小限の時間とメモリオーバーヘッドで、分散型および分散型の強いパフォーマンスを達成することを経験的に示します。

要約(オリジナル)

Modern deep learning models generalize remarkably well in-distribution, despite being overparametrized and trained with little to no explicit regularization. Instead, current theory credits implicit regularization imposed by the choice of architecture, hyperparameters and optimization procedure. However, deploying deep learning models out-of-distribution, in sequential decision-making tasks, or in safety-critical domains, necessitates reliable uncertainty quantification, not just a point estimate. The machinery of modern approximate inference — Bayesian deep learning — should answer the need for uncertainty quantification, but its effectiveness has been challenged by our inability to define useful explicit inductive biases through priors, as well as the associated computational burden. Instead, in this work we demonstrate, both theoretically and empirically, how to regularize a variational deep network implicitly via the optimization procedure, just as for standard deep learning. We fully characterize the inductive bias of (stochastic) gradient descent in the case of an overparametrized linear model as generalized variational inference and demonstrate the importance of the choice of parametrization. Finally, we show empirically that our approach achieves strong in- and out-of-distribution performance without tuning of additional hyperparameters and with minimal time and memory overhead over standard deep learning.

arxiv情報

著者 Jonathan Wenger,Beau Coker,Juraj Marusic,John P. Cunningham
発行日 2025-05-26 17:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク