要約
ディープ ニューラル ネットワーク (DNN) は、複雑な縮退を示す特異な統計モデルです。
この研究では、特異学習理論に導入された \emph{学習係数} として知られる量が、ディープ ニューラル ネットワークの縮退の程度をどのように正確に定量化するかを説明します。
重要なのは、DNN の縮退は単に「フラット」方向の数を数えるだけでは説明できないことを実証することです。
確率的勾配ランジュバン力学を使用して、学習係数の局所的なバージョンの計算的にスケーラブルな近似を提案します。
私たちのアプローチを検証するために、既知の理論値を使用して低次元モデルでその精度を実証します。
重要なのは、ローカル学習係数は、さまざまなパラメーターの関心領域間の縮退の順序を正しく回復できることです。
MNIST の実験では、局所学習係数によって、多かれ少なかれ縮退した臨界点に対する確率的オプティマイザーの帰納的バイアスが明らかになる可能性があることが示されています。
要約(オリジナル)
Deep neural networks (DNN) are singular statistical models which exhibit complex degeneracies. In this work, we illustrate how a quantity known as the \emph{learning coefficient} introduced in singular learning theory quantifies precisely the degree of degeneracy in deep neural networks. Importantly, we will demonstrate that degeneracy in DNN cannot be accounted for by simply counting the number of ‘flat’ directions. We propose a computationally scalable approximation of a localized version of the learning coefficient using stochastic gradient Langevin dynamics. To validate our approach, we demonstrate its accuracy in low-dimensional models with known theoretical values. Importantly, the local learning coefficient can correctly recover the ordering of degeneracy between various parameter regions of interest. An experiment on MNIST shows the local learning coefficient can reveal the inductive bias of stochastic opitmizers for more or less degenerate critical points.
arxiv情報
著者 | Edmund Lau,Daniel Murfet,Susan Wei |
発行日 | 2023-08-23 12:55:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google