ZerO Initialization: Initializing Neural Networks with only Zeros and Ones

要約

ディープニューラルネットワークは通常、学習中に安定した信号伝搬を確保するために、適切に選択された初期分散を持つランダムな重みで初期化されます。しかし、適切な分散を選択することは、特に層数が増えるにつれて困難になる。本研究では、ランダムな重みの初期化を、完全に決定論的な初期化スキーム、すなわち、ZerOに置き換える。ZerOは、同一性とハダマード変換に基づいて、ネットワークの重みを0と1(正規化係数まで)のみで初期化するスキームである。理論と実証の両面から、ZerOはネットワークの表現力を損なわずに学習できることを実証した。また、ResNetにZerOを適用することで、ImageNetを含む様々なデータセットにおいて最先端の性能を達成し、ネットワークの初期化にランダムな重みが不要である可能性を示唆する。また、ZerOは、(バッチ正規化なしで)超深層ネットワークを学習できる、低ランクで疎な解になる低ランク学習軌道を示す、学習の再現性を高める、など多くの利点を持っています。

要約(オリジナル)

Deep neural networks are usually initialized with random weights, with adequately selected initial variance to ensure stable signal propagation during training. However, selecting the appropriate variance becomes challenging especially as the number of layers grows. In this work, we replace random weight initialization with a fully deterministic initialization scheme, viz., ZerO, which initializes the weights of networks with only zeros and ones (up to a normalization factor), based on identity and Hadamard transforms. Through both theoretical and empirical studies, we demonstrate that ZerO is able to train networks without damaging their expressivity. Applying ZerO on ResNet achieves state-of-the-art performance on various datasets, including ImageNet, which suggests random weights may be unnecessary for network initialization. In addition, ZerO has many benefits, such as training ultra deep networks (without batch-normalization), exhibiting low-rank learning trajectories that result in low-rank and sparse solutions, and improving training reproducibility.

arxiv情報

著者 Jiawei Zhao,Florian Schäfer,Anima Anandkumar
発行日 2022-11-04 17:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク