要約
ニューラル ネットワークの枝刈りおよび量子化技術は、ニューラル ネットワーク自体とほぼ同じくらい古いものです。
ただし、これまでのところ、この 2 つの間のアドホックな比較のみが公開されています。
このペーパーでは、ニューラル ネットワークの量子化と枝刈りのどちらが優れているのかという質問に答えることを目指しました。
この質問に答えることで、今後のニューラル ネットワーク ハードウェアの設計上の決定に情報を提供したいと考えています。
ディープ ニューラル ネットワークを圧縮するための 2 つの手法を徹底的に比較します。
まず、一般的なデータ分布の予想される量子化と枝刈り誤差を分析的に比較します。
次に、トレーニング済みネットワークにおける層ごとの枝刈りおよび量子化誤差の下限を設定し、これらを最適化後の経験的誤差と比較します。
最後に、3 つのタスクで 8 つの大規模モデルをトレーニングするための広範な実験比較を提供します。
私たちの結果は、ほとんどの場合、量子化が枝刈りよりも優れていることを示しています。
圧縮率が非常に高い一部のシナリオでのみ、プルーニングが精度の観点から有益である可能性があります。
要約(オリジナル)
Neural network pruning and quantization techniques are almost as old as neural networks themselves. However, to date only ad-hoc comparisons between the two have been published. In this paper, we set out to answer the question on which is better: neural network quantization or pruning? By answering this question, we hope to inform design decisions made on neural network hardware going forward. We provide an extensive comparison between the two techniques for compressing deep neural networks. First, we give an analytical comparison of expected quantization and pruning error for general data distributions. Then, we provide lower bounds for the per-layer pruning and quantization error in trained networks, and compare these to empirical error after optimization. Finally, we provide an extensive experimental comparison for training 8 large-scale models on 3 tasks. Our results show that in most cases quantization outperforms pruning. Only in some scenarios with very high compression ratio, pruning might be beneficial from an accuracy standpoint.
arxiv情報
著者 | Andrey Kuzmin,Markus Nagel,Mart van Baalen,Arash Behboodi,Tijmen Blankevoort |
発行日 | 2023-07-06 13:18:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google