Heavy-Tailed Regularization of Weight Matrices in Deep Neural Networks

要約

タイトル:Deep Neural Networksにおける重尾形の重み行列の正則化
要約:
– Deep Neural Networksの優れた汎化能力と成功の背後にある理由を解明することは、困難な課題である。
– Deep Neural Networksの重み行列のスペクトル分析に関するランダム行列理論の最近の洞察により、この問題に対する貴重な手がかりが得られた。
– 主要な発見は、ニューラルネットワークの汎化性能がその重み行列のスペクトルの重尾度と関連しているということであった。
– この発見を活用するために、我々は重尾正則化という新しい正則化技術を導入し、正則化を通じて重み行列のより重尾型のスペクトルを促進する。
– 最初に、重み付けアルファとステーブルランクを罰則項として使用し、両方とも微分可能であり、直接勾配の計算が可能である。
– 過剰な正則化を回避するために、罰則関数の2つの変化を導入する。
– ベイズ統計の観点からアプローチし、ランダム行列からの知識を活用して、グローバルスペクトルと最大固有値を事前分布として利用する2つの新しい重尾性の正則化方法を開発する。
– 実験的に、重尾形の正則化は、汎化性能の観点では従来の正則化技術を上回ることを示した。

要約(オリジナル)

Unraveling the reasons behind the remarkable success and exceptional generalization capabilities of deep neural networks presents a formidable challenge. Recent insights from random matrix theory, specifically those concerning the spectral analysis of weight matrices in deep neural networks, offer valuable clues to address this issue. A key finding indicates that the generalization performance of a neural network is associated with the degree of heavy tails in the spectrum of its weight matrices. To capitalize on this discovery, we introduce a novel regularization technique, termed Heavy-Tailed Regularization, which explicitly promotes a more heavy-tailed spectrum in the weight matrix through regularization. Firstly, we employ the Weighted Alpha and Stable Rank as penalty terms, both of which are differentiable, enabling the direct calculation of their gradients. To circumvent over-regularization, we introduce two variations of the penalty function. Then, adopting a Bayesian statistics perspective and leveraging knowledge from random matrices, we develop two novel heavy-tailed regularization methods, utilizing Powerlaw distribution and Frechet distribution as priors for the global spectrum and maximum eigenvalues, respectively. We empirically show that heavytailed regularization outperforms conventional regularization techniques in terms of generalization performance.

arxiv情報

著者 Xuanzhe Xiao,Zeng Li,Chuanlong Xie,Fengwei Zhou
発行日 2023-04-07 04:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク