Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries

要約

スパース正則化技術は機械学習において確立されているが、$L_1$ノルムのようなペナルティの微分不可能性により、確率的勾配降下とは相容れないため、ニューラルネットワークへの適用は依然として困難である。そのため、微分可能な$L_2$正則化を係数に加えることで、$L_1$ペナルティ付きニューラルネットワークのスムーズな最適化を可能にする。本研究では、深い重み分解を導入し、これまでの浅いアプローチを2因子以上に拡張する。我々は、非凸のスパース正則化と我々の深い因数分解の等価性を理論的に確立し、トレーニングダイナミクスと最適化への影響を分析する。また、標準的な学習方法には限界があるため、初期化スキームを提案し、因数分解ネットワークの学習に必要な重要な学習率を特定する。様々なアーキテクチャとデータセットでの実験を通じて、我々の深い重み因数分解の有効性を実証し、浅い対応する手法や広く使われている刈り込み手法を常に凌駕する。

要約(オリジナル)

Sparse regularization techniques are well-established in machine learning, yet their application in neural networks remains challenging due to the non-differentiability of penalties like the $L_1$ norm, which is incompatible with stochastic gradient descent. A promising alternative is shallow weight factorization, where weights are decomposed into two factors, allowing for smooth optimization of $L_1$-penalized neural networks by adding differentiable $L_2$ regularization to the factors. In this work, we introduce deep weight factorization, extending previous shallow approaches to more than two factors. We theoretically establish equivalence of our deep factorization with non-convex sparse regularization and analyze its impact on training dynamics and optimization. Due to the limitations posed by standard training practices, we propose a tailored initialization scheme and identify important learning rate requirements necessary for training factorized networks. We demonstrate the effectiveness of our deep weight factorization through experiments on various architectures and datasets, consistently outperforming its shallow counterpart and widely used pruning methods.

arxiv情報

著者 Chris Kolb,Tobias Weber,Bernd Bischl,David Rügamer
発行日 2025-02-04 17:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク