要約
ディープ ニューラル ネットワークのプルーニングは、高密度ネットワークのパフォーマンスのほとんどを維持しながらモデル サイズを削減する効果的な手法であり、メモリや電力に制約のあるデバイスにモデルを展開する場合に重要です。
最近のスパース学習方法は、95% や 98% などの中程度のスパース レベルまでは有望なパフォーマンスを示していますが、スパースを極端なレベルに引き上げると精度は急速に低下します。
このような極端な疎性レベルで疎なネットワークを取得するには、脆弱な勾配流や層崩壊のリスクの増大など、特有の課題が生じます。
この研究では、一般的に研究されているスパース性を超えたネットワーク パフォーマンスを調査し、ResNet アーキテクチャで 99.90%、99.95%、99.99% などの極端なスパース性でも精度が崩れることなくネットワークの継続学習を可能にする一連の手法を提案します。
私たちのアプローチは、1) 動的 ReLU フェージング (DyReLU では、標準 ReLU に徐々に置き換えられる前に、最初はより豊富なパラメーター探索を可能にします)、2) 学習可能なパラメーターの数を維持しながら残差層内のパラメーターを再利用する重み共有、および 3) サイクリック スパース性を組み合わせています。
ここでは、スパース性レベルとスパース性パターンの両方がトレーニングを通じて動的に進化し、パラメーターの探索をより適切に促進します。
CIFAR-10、CIFAR-100、および ImageNet 上で ResNet-34 および ResNet-50 を使用して、極端なスパース度での Extreme Adaptive Sparse Training (EAST) と呼ばれる手法を評価し、最先端のものと比較して大幅なパフォーマンスの向上を達成しました。
比較した方法。
要約(オリジナル)
Pruning of deep neural networks has been an effective technique for reducing model size while preserving most of the performance of dense networks, crucial for deploying models on memory and power-constrained devices. While recent sparse learning methods have shown promising performance up to moderate sparsity levels such as 95% and 98%, accuracy quickly deteriorates when pushing sparsities to extreme levels. Obtaining sparse networks at such extreme sparsity levels presents unique challenges, such as fragile gradient flow and heightened risk of layer collapse. In this work, we explore network performance beyond the commonly studied sparsities, and propose a collection of techniques that enable the continuous learning of networks without accuracy collapse even at extreme sparsities, including 99.90%, 99.95% and 99.99% on ResNet architectures. Our approach combines 1) Dynamic ReLU phasing, where DyReLU initially allows for richer parameter exploration before being gradually replaced by standard ReLU, 2) weight sharing which reuses parameters within a residual layer while maintaining the same number of learnable parameters, and 3) cyclic sparsity, where both sparsity levels and sparsity patterns evolve dynamically throughout training to better encourage parameter exploration. We evaluate our method, which we term Extreme Adaptive Sparse Training (EAST) at extreme sparsities using ResNet-34 and ResNet-50 on CIFAR-10, CIFAR-100, and ImageNet, achieving significant performance improvements over state-of-the-art methods we compared with.
arxiv情報
著者 | Andy Li,Aiden Durrant,Milan Markovic,Lu Yin,Georgios Leontidis |
発行日 | 2024-11-20 18:54:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google