Masks, Signs, And Learning Rate Rewinding

要約

Learning Rate Rewinding (LRR) は、深く過パラメータ化されたニューラル ネットワークで宝くじを見つけるための Iterative Magnitude Pruning (IMP) の強力なバリエーションとして確立されています。
どちらの反復枝刈りスキームも構造学習とパラメーター学習を組み合わせていますが、LRR が両方の側面でどのように優れているかを理解することで、多様なスパース アーキテクチャのセットを最適化できる、より柔軟な深層学習アルゴリズムの設計に近づくことができます。
この目的を達成するために、マスク学習とパラメータ最適化の効果を解きほぐし、両方が過剰なパラメータ化からどのように恩恵を受けるかを分析する実験を行います。
LRR は、パラメータの符号を早期に反転し、摂動の符号に対してロバスト性を維持する能力により、マスクの識別だけでなく、ランダムなマスクを含む多様なマスクのセットの最適化においてもより効果的になるようです。
この仮説を裏付けるために、単純化された単一の隠れニューロン設定で、LRR は最初に問題のある符号構成を回避できるため、IMP よりも多くの場合に成功することを証明します。

要約(オリジナル)

Learning Rate Rewinding (LRR) has been established as a strong variant of Iterative Magnitude Pruning (IMP) to find lottery tickets in deep overparameterized neural networks. While both iterative pruning schemes couple structure and parameter learning, understanding how LRR excels in both aspects can bring us closer to the design of more flexible deep learning algorithms that can optimize diverse sets of sparse architectures. To this end, we conduct experiments that disentangle the effect of mask learning and parameter optimization and how both benefit from overparameterization. The ability of LRR to flip parameter signs early and stay robust to sign perturbations seems to make it not only more effective in mask identification but also in optimizing diverse sets of masks, including random ones. In support of this hypothesis, we prove in a simplified single hidden neuron setting that LRR succeeds in more cases than IMP, as it can escape initially problematic sign configurations.

arxiv情報

著者 Advait Gadhikar,Rebekka Burkholz
発行日 2024-02-29 15:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク