Effective Interplay between Sparsity and Quantization: From Theory to Practice

要約

ディープ ニューラル ネットワークのサイズが増大しているため、計算効率を向上させ、メモリ フットプリントを削減するために効果的なモデル圧縮が必要です。
スパース性と量子化は、モデルの精度を維持しながら計算量とメモリのフットプリントを大幅に削減することが個別に実証されている 2 つの著名な圧縮方法です。
効果的ではありますが、これら 2 つの方法の相互作用については未解決の問題が残っています。
このペーパーでは、これら 2 つの方法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を与えるかどうかを評価します。
量子化の前にスパース性を適用することがこれらの操作の最適なシーケンスであり、計算エラーを最小限に抑えることが数学的に証明されています。
OPT および Llama モデル ファミリ (125M-8B) および ViT を含む幅広いモデルにわたる当社の実証研究は、これらの理論的発見を裏付けています。
さらに、厳密な分析を通じて、スパース性と量子化が直交していないことを示します。
それらの相互作用はモデルの精度を著しく損なう可能性があり、量子化誤差がこの低下において主な役割を果たします。
私たちの調査結果は、リソースが限られたコンピューティング プラットフォームでの大規模モデルの効率的なデプロイとサービス コストの削減にまで及び、これらの圧縮方法を適用して精度を損なうことなく効率を最大化するためのベスト プラクティスに関する洞察を提供します。

要約(オリジナル)

The increasing size of deep neural networks necessitates effective model compression to improve computational efficiency and reduce their memory footprint. Sparsity and quantization are two prominent compression methods that have individually demonstrated significant reduction in computational and memory footprints while preserving model accuracy. While effective, the interplay between these two methods remains an open question. In this paper, we investigate the interaction between these two methods and assess whether their combination impacts final model accuracy. We mathematically prove that applying sparsity before quantization is the optimal sequence for these operations, minimizing error in computation. Our empirical studies across a wide range of models, including OPT and Llama model families (125M-8B) and ViT corroborate these theoretical findings. In addition, through rigorous analysis, we demonstrate that sparsity and quantization are not orthogonal; their interaction can significantly harm model accuracy, with quantization error playing a dominant role in this degradation. Our findings extend to the efficient deployment of large models in resource-limited compute platforms and reduce serving cost, offering insights into best practices for applying these compression methods to maximize efficacy without compromising accuracy.

arxiv情報

著者 Simla Burcu Harma,Ayan Chakraborty,Elizaveta Kostenok,Danila Mishin,Dongho Ha,Babak Falsafi,Martin Jaggi,Ming Liu,Yunho Oh,Suvinay Subramanian,Amir Yazdanbakhsh
発行日 2024-05-31 15:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク