要約
深いニューラルネットワーク(DNNS)のサイズの増加には、計算とメモリのフットプリントを減らすために効果的なモデル圧縮が必要です。
スパースと量子化は、モデルの精度を維持しながらDNNSの計算フットプリントを大幅に減らすことが示されている2つの顕著な圧縮方法です。
ただし、これらの2つの方法が組み合わされたときにどのように相互作用するかは、開発者にとって重要な質問のままです。多くの人は、それらが直交していると暗黙のうちに想定しているため、それらの組み合わせが独立して導入されたものを超えて追加のエラーを導入しないことを意味します。
この論文では、スパースと量子化が非正義であるという最初の数学的証拠を提供します。
これらの結果は、OptおよびLlamaモデルファミリ(125mから8Bパラメーターを含む)、およびVITやResNetなどのビジョンモデルを含むさまざまな大規模な言語モデルにまたがる実験で裏付けています。
これらの方法を適用する順序は、スパースの前に量子化を適用するとテンソル要素の相対的な重要性を破壊する可能性があるため、テンソルから重要な要素を誤って除去する可能性があるため、これらの方法が重要であることを示します。
さらに重要なことは、正しい順序で適用されたとしても、スパースと量子化からの複合エラーが精度を大幅に損なう可能性があることを示しています。
私たちの調査結果は、リソースに制約のあるコンピューティングプラットフォームでの大規模なモデルの効率的な展開に拡張され、サービングコストを削減し、精度を損なうことなくハードウェアリソースの効率を最大化するために、これらの圧縮方法を適用するためのベストプラクティスの洞察を提供します。
要約(オリジナル)
The increasing size of deep neural networks (DNNs) necessitates effective model compression to reduce their computational and memory footprints. Sparsity and quantization are two prominent compression methods that have been shown to reduce DNNs’ computational and memory footprints significantly while preserving model accuracy. However, how these two methods interact when combined together remains a key question for developers, as many tacitly assume that they are orthogonal, meaning that their combined use does not introduce additional errors beyond those introduced by each method independently. In this paper, we provide the first mathematical proof that sparsity and quantization are non-orthogonal. We corroborate these results with experiments spanning a range of large language models, including the OPT and LLaMA model families (with 125M to 8B parameters), and vision models like ViT and ResNet. We show that the order in which we apply these methods matters because applying quantization before sparsity may disrupt the relative importance of tensor elements, which may inadvertently remove significant elements from a tensor. More importantly, we show that even if applied in the correct order, the compounded errors from sparsity and quantization can significantly harm accuracy. Our findings extend to the efficient deployment of large models in resource-constrained compute platforms to reduce serving cost, offering insights into best practices for applying these compression methods to maximize hardware resource efficiency without compromising accuracy.
arxiv情報
著者 | Simla Burcu Harma,Ayan Chakraborty,Elizaveta Kostenok,Danila Mishin,Dongho Ha,Babak Falsafi,Martin Jaggi,Ming Liu,Yunho Oh,Suvinay Subramanian,Amir Yazdanbakhsh |
発行日 | 2025-01-28 12:26:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google