Compression-aware Training of Neural Networks using Frank-Wolfe

要約

既存のニューラル ネットワークの枝刈りアプローチの多くは、トレーニング全体を通じて疎な解に収束するために、再トレーニングまたは強いバイアスの誘発に依存しています。
3 番目のパラダイムである「圧縮を意識した」トレーニングは、再トレーニングを回避しながら、単一の密なトレーニングの実行を使用して、広範囲の圧縮率に対して堅牢な最先端の密なモデルを取得することを目的としています。
我々は、畳み込みフィルターの枝刈りや低ランク行列分解に対する堅牢性を誘導しながら、パフォーマンスの高いソリューションへの収束を促進する、汎用性の高いノルム制約ファミリーと確率的フランク・ウルフ (SFW) アルゴリズムを中心としたフレームワークを提案します。
私たちの方法は、既存の圧縮を意識したアプローチよりも優れたパフォーマンスを発揮することができ、低ランク行列分解の場合、必要な計算リソースも核標準正則化に基づくアプローチよりも大幅に少なくなります。
私たちの調査結果は、Pokutta らによって示唆されているように、SFW の学習率を動的に調整することができることを示しています。
(2020) は、SFW でトレーニングされたモデルの収束と堅牢性にとって重要であり、その実践のための理論的基盤を確立します。

要約(オリジナル)

Many existing Neural Network pruning approaches rely on either retraining or inducing a strong bias in order to converge to a sparse solution throughout training. A third paradigm, ‘compression-aware’ training, aims to obtain state-of-the-art dense models that are robust to a wide range of compression ratios using a single dense training run while also avoiding retraining. We propose a framework centered around a versatile family of norm constraints and the Stochastic Frank-Wolfe (SFW) algorithm that encourage convergence to well-performing solutions while inducing robustness towards convolutional filter pruning and low-rank matrix decomposition. Our method is able to outperform existing compression-aware approaches and, in the case of low-rank matrix decomposition, it also requires significantly less computational resources than approaches based on nuclear-norm regularization. Our findings indicate that dynamically adjusting the learning rate of SFW, as suggested by Pokutta et al. (2020), is crucial for convergence and robustness of SFW-trained models and we establish a theoretical foundation for that practice.

arxiv情報

著者 Max Zimmer,Christoph Spiegel,Sebastian Pokutta
発行日 2024-02-14 16:43:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク