Weight Conditioning for Smooth Optimization of Neural Networks

要約

この記事では、ニューラル ネットワークの重み行列の新しい正規化手法 (重みコンディショニングと呼ぶ) を紹介します。
このアプローチは、重み行列の最小特異値と最大特異値の間のギャップを狭め、より適切な条件の行列をもたらすことを目的としています。
この手法のインスピレーションの一部は数値線形代数から得られており、よく条件付けされた行列は反復ソルバーのより強力な収束結果を容易にすることが知られています。
私たちは、正規化手法が損失状況を平滑化し、それによって確率的勾配降下法アルゴリズムの収束を強化することを実証する理論的基盤を提供します。
経験的に、畳み込みニューラル ネットワーク (CNN)、ビジョン トランスフォーマー (ViT)、ニューラル ラディアンス フィールド (NeRF)、3D 形状モデリングなど、さまざまなニューラル ネットワーク アーキテクチャにわたって正規化を検証します。
私たちの調査結果は、私たちの正規化方法が競争力があるだけでなく、文献に記載されている既存の重み正規化手法よりも優れていることを示しています。

要約(オリジナル)

In this article, we introduce a novel normalization technique for neural network weight matrices, which we term weight conditioning. This approach aims to narrow the gap between the smallest and largest singular values of the weight matrices, resulting in better-conditioned matrices. The inspiration for this technique partially derives from numerical linear algebra, where well-conditioned matrices are known to facilitate stronger convergence results for iterative solvers. We provide a theoretical foundation demonstrating that our normalization technique smoothens the loss landscape, thereby enhancing convergence of stochastic gradient descent algorithms. Empirically, we validate our normalization across various neural network architectures, including Convolutional Neural Networks (CNNs), Vision Transformers (ViT), Neural Radiance Fields (NeRF), and 3D shape modeling. Our findings indicate that our normalization method is not only competitive but also outperforms existing weight normalization techniques from the literature.

arxiv情報

著者 Hemanth Saratchandran,Thomas X. Wang,Simon Lucey
発行日 2024-09-05 11:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク