Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks


タイトル:Deep Neural Networksにおける重尾のスペクトル正則化

– 深層ニューラルネットワークの驚異的な成功と優れた一般化能力の原因を解明することは困難である。
– ランダム行列理論からの最近の洞察によって、Deep Neural Networksの重み行列のスペクトル分析に関するものは、この問題に対する貴重な手掛かりを提供する。
– 重尾分布のスペクトル分布がニューラルネットワークの一般化性能に関連していることが重要な発見である。
– この発見を生かすために、我々は「Heavy-Tailed Regularization」という新しい正則化技術を導入し、正則化を通じてより重尾なスペクトルを促進する。
– これは、フレシェ分布とパワーロー分布を使用する2つの重尾正則化方法を提供し、一般的な正則化技術よりも一般化性能が優れていることを実験的に示している。


Unraveling the reasons behind the remarkable success and exceptional generalization capabilities of deep neural networks presents a formidable challenge. Recent insights from random matrix theory, specifically those concerning the spectral analysis of weight matrices in deep neural networks, offer valuable clues to address this issue. A key finding indicates that the generalization performance of a neural network is associated with the degree of heavy tails in the spectrum of its weight matrices. To capitalize on this discovery, we introduce a novel regularization technique, termed Heavy-Tailed Regularization, which explicitly promotes a more heavy-tailed spectrum in the weight matrix through regularization. Firstly, we employ the Weighted Alpha and Stable Rank as penalty terms, both of which are differentiable, enabling the direct calculation of their gradients. To circumvent over-regularization, we introduce two variations of the penalty function. Then, adopting a Bayesian statistics perspective and leveraging knowledge from random matrices, we develop two novel heavy-tailed regularization methods, utilizing Powerlaw distribution and Frechet distribution as priors for the global spectrum and maximum eigenvalues, respectively. We empirically show that heavytailed regularization outperforms conventional regularization techniques in terms of generalization performance.


著者 Xuanzhe Xiao,Zeng Li,Chuanlong Xie,Fengwei Zhou
発行日 2023-04-06 07:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク