Bayesian Free Energy of Deep ReLU Neural Network in Overparametrized Cases

要約

タイトル:過剰パラメータ化したDeep ReLUニューラルネットワークのベイジアンフリーエネルギー
要約:
– 高次元の入力空間で未知の関数を推定するためにDeep Neural Networkが利用されているが、彼らの汎化性能は、非識別および特異な学習機械であるため、まだ理論的に完全に解明されているわけではない。
– また、ReLU関数は微分可能ではなく、特異学習理論の代数的または解析的手法を適用することができない。
– 本論文では、過剰パラメータ化されたDeep ReLUニューラルネットワークを研究し、Bayesianフリーエネルギーが制限されることを示し、これはマイナスログ周辺尤度またはBayesian確率的複雑性に等しい。
– また、Bayesian汎化誤差はサンプルサイズの関数として自由度が増加することを示しており、したがって、私たちの結果は、十分に大きくまたは過剰パラメータ化されたDeep ReLUニューラルネットワークが設計されている場合でも、Bayesian汎化誤差は増加しないことを示している。

要約(オリジナル)

In many research fields in artificial intelligence, it has been shown that deep neural networks are useful to estimate unknown functions on high dimensional input spaces. However, their generalization performance is not yet completely clarified from the theoretical point of view because they are nonidentifiable and singular learning machines. Moreover, a ReLU function is not differentiable, to which algebraic or analytic methods in singular learning theory cannot be applied. In this paper, we study a deep ReLU neural network in overparametrized cases and prove that the Bayesian free energy, which is equal to the minus log marginal likelihoodor the Bayesian stochastic complexity, is bounded even if the number of layers are larger than necessary to estimate an unknown data-generating function. Since the Bayesian generalization error is equal to the increase of the free energy as a function of a sample size, our result also shows that the Bayesian generalization error does not increase even if a deep ReLU neural network is designed to be sufficiently large or in an opeverparametrized state.

arxiv情報

著者 Shuya Nagayasu,Sumio Watanabe
発行日 2023-04-20 05:35:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 62F15, cs.LG, stat.ML パーマリンク