要約
重み正規化 (WeightNorm) は、ディープ ニューラル ネットワークのトレーニングに実際に広く使用されており、最新の深層学習ライブラリにはその実装が組み込まれています。
この論文では、スムーズなアクティベーション関数を備えた深い WeightNorm モデルの最適化と一般化の両方の最初の理論的特徴付けを提供します。
最適化の場合、損失のヘシアンの形式から、予測子の小さなヘシアンが扱いやすい分析につながることに注目します。
したがって、WeightNorm ネットワークのヘッセ行列のスペクトル ノルムを制限し、そのネットワーク幅と重み正規化項への依存性を示します。後者は WeightNorm のないネットワークに特有のものです。
次に、この境界を使用して、勾配適切な適切な仮定の下でトレーニング収束保証を確立します。
一般化の場合、WeightNorm を使用して均一な収束ベースの一般化限界を取得します。これは、幅には依存せず、深さには線形に依存しません。
最後に、正規化項および理論的に興味深いその他の量が WeightNorm ネットワークのトレーニングにどのように関係するかを示す実験結果を示します。
要約(オリジナル)
Weight normalization (WeightNorm) is widely used in practice for the training of deep neural networks and modern deep learning libraries have built-in implementations of it. In this paper, we provide the first theoretical characterizations of both optimization and generalization of deep WeightNorm models with smooth activation functions. For optimization, from the form of the Hessian of the loss, we note that a small Hessian of the predictor leads to a tractable analysis. Thus, we bound the spectral norm of the Hessian of WeightNorm networks and show its dependence on the network width and weight normalization terms–the latter being unique to networks without WeightNorm. Then, we use this bound to establish training convergence guarantees under suitable assumptions for gradient decent. For generalization, we use WeightNorm to get a uniform convergence based generalization bound, which is independent from the width and depends sublinearly on the depth. Finally, we present experimental results which illustrate how the normalization terms and other quantities of theoretical interest relate to the training of WeightNorm networks.
arxiv情報
著者 | Pedro Cisneros-Velarde,Zhijie Chen,Sanmi Koyejo,Arindam Banerjee |
発行日 | 2024-09-13 15:55:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google