要約
高精度かつ高スパースなディープ ニューラル ネットワークのバージョンを取得することは、モデル圧縮の分野における主な課題の 1 つであり、いくつかの高性能プルーニング手法がコミュニティによって研究されています。
しかし、スパース性と、スパース ネットワークのトレーニングに使用される標準的な確率的最適化手法との相互作用についてはほとんど知られておらず、既存の研究のほとんどは、スパース ネットワークのトレーニングに標準の高密度スケジュールとハイパーパラメーターを使用しています。
この研究では、標準的なコンピューター ビジョンと自然言語処理のスパース性ベンチマークを使用して、モデルのトレーニングに対する高スパース性の影響を調べます。
まず、標準的な密トレーニング レシピを疎トレーニングに使用するのは最適ではなく、トレーニング不足になることを示します。
私たちは、ビジョン モデルのスパース事前トレーニング (例: ResNet50/ImageNet) と言語モデルのスパース微調整 (例: BERT/GLUE) の両方に対してこの問題を軽減するための新しいアプローチを提供し、両方の設定で最先端の結果を達成します。
高スパース性領域でのトレーニングを行い、両方のシナリオにおけるスパース トレーニングの難しさについて詳細な分析を提供します。
私たちの研究は、高いスパース性の下で達成できる精度という点で新たな閾値を設定しており、スパース性が高い下でより高い精度を達成するために、しかもそれを効率的に行うために、スパース モデルのトレーニングを改善するためのさらなる研究を促すはずです。
要約(オリジナル)
Obtaining versions of deep neural networks that are both highly-accurate and highly-sparse is one of the main challenges in the area of model compression, and several high-performance pruning techniques have been investigated by the community. Yet, much less is known about the interaction between sparsity and the standard stochastic optimization techniques used for training sparse networks, and most existing work uses standard dense schedules and hyperparameters for training sparse networks. In this work, we examine the impact of high sparsity on model training using the standard computer vision and natural language processing sparsity benchmarks. We begin by showing that using standard dense training recipes for sparse training is suboptimal, and results in under-training. We provide new approaches for mitigating this issue for both sparse pre-training of vision models (e.g. ResNet50/ImageNet) and sparse fine-tuning of language models (e.g. BERT/GLUE), achieving state-of-the-art results in both settings in the high-sparsity regime, and providing detailed analyses for the difficulty of sparse training in both scenarios. Our work sets a new threshold in terms of the accuracies that can be achieved under high sparsity, and should inspire further research into improving sparse model training, to reach higher accuracies under high sparsity, but also to do so efficiently.
arxiv情報
著者 | Denis Kuznedelev,Eldar Kurtic,Eugenia Iofinova,Elias Frantar,Alexandra Peste,Dan Alistarh |
発行日 | 2023-09-08 14:45:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google