Fantastic Weights and How to Find Them: Where to Prune in Dynamic Sparse Training

要約

ダイナミック スパース トレーニング (DST) は、トレーニング中にトポロジーを適応させることでニューラル ネットワークのスパース初期化を最適化することを目的とした、急速に進化している研究分野です。
特定の条件下では、DST が高密度モデルよりも優れたパフォーマンスを発揮できることが示されています。
このフレームワークの主要なコンポーネントは、ネットワークの疎な接続を調整するためにトレーニング プロセス中に繰り返し適用される枝刈り基準と成長基準です。
DST のパフォーマンスに対する増加基準の影響は比較的よく研究されていますが、剪定基準の影響は依然として見落とされています。
この問題に対処するために、DST ソリューションのダイナミクスに対する影響をより深く理解するために、さまざまなプルーニング基準の広範な実証分析を設計および実行しています。
驚くべきことに、研究された方法のほとんどが同様の結果をもたらすことがわかりました。
この違いは、低密度領域ではより顕著になります。低密度領域では、最も単純な手法であるマグニチュードベースの枝刈りによって最高のパフォーマンスが主に得られます。
コードは https://github.com/alooow/fantastic_weights_paper で提供されています。

要約(オリジナル)

Dynamic Sparse Training (DST) is a rapidly evolving area of research that seeks to optimize the sparse initialization of a neural network by adapting its topology during training. It has been shown that under specific conditions, DST is able to outperform dense models. The key components of this framework are the pruning and growing criteria, which are repeatedly applied during the training process to adjust the network’s sparse connectivity. While the growing criterion’s impact on DST performance is relatively well studied, the influence of the pruning criterion remains overlooked. To address this issue, we design and perform an extensive empirical analysis of various pruning criteria to better understand their effect on the dynamics of DST solutions. Surprisingly, we find that most of the studied methods yield similar results. The differences become more significant in the low-density regime, where the best performance is predominantly given by the simplest technique: magnitude-based pruning. The code is provided at https://github.com/alooow/fantastic_weights_paper

arxiv情報

著者 Aleksandra I. Nowak,Bram Grooten,Decebal Constantin Mocanu,Jacek Tabor
発行日 2023-06-21 12:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク