Convergence Analysis for Learning Orthonormal Deep Linear Neural Networks

要約

重み行列の正規直交または等尺性プロパティを強制すると、勾配の爆発/消失が軽減され、学習されたネットワークの堅牢性が向上するため、ディープ ニューラル ネットワークのトレーニングが強化されることが示されています。
ただし、その実用的なパフォーマンスにもかかわらず、ニューラル ネットワークにおける正規直交性の理論的分析はまだ不足しています。
たとえば、正規直交性がトレーニング プロセスの収束にどのような影響を与えるかなどです。
このレターでは、正規直交深層線形ニューラル ネットワークをトレーニングするための収束解析を提供することで、このギャップを埋めることを目指しています。
具体的には、適切な初期化を使用したリーマン勾配降下法が、あるクラスの損失関数を使用して正規直交深線形ニューラル ネットワークをトレーニングするために線形速度で収束することを示します。
すべての層に対して正規直交重み行列を強制する既存の研究とは異なり、私たちのアプローチでは、収束保証を確立するために重要である 1 つの層に対するこの要件が除外されます。
私たちの結果は、隠れ層の数の増加が収束速度にどのように影響するかを明らかにします。
実験結果は私たちの理論的分析を検証します。

要約(オリジナル)

Enforcing orthonormal or isometric property for the weight matrices has been shown to enhance the training of deep neural networks by mitigating gradient exploding/vanishing and increasing the robustness of the learned networks. However, despite its practical performance, the theoretical analysis of orthonormality in neural networks is still lacking; for example, how orthonormality affects the convergence of the training process. In this letter, we aim to bridge this gap by providing convergence analysis for training orthonormal deep linear neural networks. Specifically, we show that Riemannian gradient descent with an appropriate initialization converges at a linear rate for training orthonormal deep linear neural networks with a class of loss functions. Unlike existing works that enforce orthonormal weight matrices for all the layers, our approach excludes this requirement for one layer, which is crucial to establish the convergence guarantee. Our results shed light on how increasing the number of hidden layers can impact the convergence speed. Experimental results validate our theoretical analysis.

arxiv情報

著者 Zhen Qin,Xuwei Tan,Zhihui Zhu
発行日 2023-11-24 18:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク