要約
この研究では、ニューラル ネットワーク内の個々の ReLU ユニットの特性活性化値を調べます。
このような特性活性化値に対応する入力位置のセットを、ReLU ユニットの特性活性化セットと呼びます。
ReLU ネットワークにおける特性活性化セットと学習された特徴の間の明示的な関係を描きます。
この関連性は、最新の深層学習アーキテクチャで使用されるさまざまなニューラル ネットワーク正規化技術が確率的勾配最適化をどのように正規化して安定化させるかについての新たな洞察につながります。
これらの洞察を利用して、超球面座標系の動径パラメータと角度パラメータを分離する、特徴学習を改善するための ReLU ネットワークの幾何学的パラメータ化を提案します。
私たちは、あまり慎重に選択されていない初期化スキームと大きな学習率を使用して、その有用性を経験的に検証しています。
ImageNet 上の ResNet-50 ネットワークを含むさまざまなデータセット上のさまざまなモデルで、最適化の安定性、収束速度、一般化パフォーマンスが大幅に向上したことを報告します。
要約(オリジナル)
This work examines the characteristic activation values of individual ReLU units in neural networks. We refer to the set of input locations corresponding to such characteristic activation values as the characteristic activation set of a ReLU unit. We draw an explicit connection between the characteristic activation set and learned features in ReLU networks. This connection leads to new insights into how various neural network normalization techniques used in modern deep learning architectures regularize and stabilize stochastic gradient optimization. Utilizing these insights, we propose geometric parameterization for ReLU networks to improve feature learning, which decouples the radial and angular parameters in the hyperspherical coordinate system. We empirically verify its usefulness with less carefully chosen initialization schemes and larger learning rates. We report significant improvements in optimization stability, convergence speed, and generalization performance for various models on a variety of datasets, including the ResNet-50 network on ImageNet.
arxiv情報
著者 | Wenlin Chen,Hong Ge |
発行日 | 2023-09-29 17:13:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google