要約
複数賞宝くじの仮説では、ランダムに初期化されたニューラル ネットワークには、同じアーキテクチャの完全にトレーニングされたモデルに匹敵する精度を達成する複数のサブネットワークが含まれていると仮定しています。
ただし、現在の方法では、ネットワークが十分に過大にパラメータ化されている必要があります。
この作業では、追加のストレージ コストやスケーリングなしで高精度のサブネットワークを見つける 2 つの最先端のアルゴリズム (Edge-Popup と Biprop) の変更を提案します。
アルゴリズムである Iterative Weight Recycling は、層内での再利用のために、ランダムに初期化されたネットワーク内の重要な重みのサブセットを識別します。
経験的に、小規模なネットワーク アーキテクチャとより高いプルーニング レートで改善が見られ、既存の重みを「リサイクル」することでモデルのスパース性を高めることができることがわかりました。
反復的な重みのリサイクルに加えて、相互の発見で複数賞宝くじの仮説を補完します。高精度でランダムに初期化されたサブネットワークは、同じハイパーパラメーターとプルーニング戦略で生成されているにもかかわらず、多様なマスクを生成します。
高い変動性を示すこれらのマスクの風景を探索します。
要約(オリジナル)
The Multi-Prize Lottery Ticket Hypothesis posits that randomly initialized neural networks contain several subnetworks that achieve comparable accuracy to fully trained models of the same architecture. However, current methods require that the network is sufficiently overparameterized. In this work, we propose a modification to two state-of-the-art algorithms (Edge-Popup and Biprop) that finds high-accuracy subnetworks with no additional storage cost or scaling. The algorithm, Iterative Weight Recycling, identifies subsets of important weights within a randomly initialized network for intra-layer reuse. Empirically we show improvements on smaller network architectures and higher prune rates, finding that model sparsity can be increased through the ‘recycling’ of existing weights. In addition to Iterative Weight Recycling, we complement the Multi-Prize Lottery Ticket Hypothesis with a reciprocal finding: high-accuracy, randomly initialized subnetwork’s produce diverse masks, despite being generated with the same hyperparameter’s and pruning strategy. We explore the landscapes of these masks, which show high variability.
arxiv情報
著者 | Matt Gorbett,Darrell Whitley |
発行日 | 2023-03-28 13:12:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google