要約
モデルサイズの成長と展開のスケールにより、それらのサイズはインフラストラクチャに負担をかけ、これらに対応するためにより多くのネットワークとより多くのストレージが必要です。
モデルの重みの一部を削除する広大なモデル圧縮文献がありますが、より速い推論のために、より伝統的なタイプの圧縮を調査します。これは、モデルをコンパクトな形式で表し、元のフォームとサイズ、つまりロスレス圧縮を返す減圧アルゴリズムと結合します。
Zipnnに、ニューラルネットワークに合わせたロスレス圧縮を提示します。
やや驚くべきことに、特定のロスレス圧縮により、人気のあるモデルで大幅なネットワークとストレージの削減が得られ、多くの場合33%を節約し、モデルサイズの50%以上を削減することが多いことを示しています。
モデル圧縮率の原因を調査し、圧縮の有効性をさらに高めるモデルに合わせた特殊な圧縮バリアントを導入します。
人気モデル(Llama 3など)では、Zipnnはバニラ圧縮よりも17%を超えるスペースの節約を示し、圧縮と減圧速度を62%改善します。
これらの方法は、顔を抱き締めるような大きなモデルハブからダウンロードされたネットワークトラフィックの1か月あたりの例外を節約できると推定しています。
要約(オリジナル)
With the growth of model sizes and the scale of their deployment, their sheer size burdens the infrastructure requiring more network and more storage to accommodate these. While there is a vast model compression literature deleting parts of the model weights for faster inference, we investigate a more traditional type of compression – one that represents the model in a compact form and is coupled with a decompression algorithm that returns it to its original form and size – namely lossless compression. We present ZipNN a lossless compression tailored to neural networks. Somewhat surprisingly, we show that specific lossless compression can gain significant network and storage reduction on popular models, often saving 33% and at times reducing over 50% of the model size. We investigate the source of model compressibility and introduce specialized compression variants tailored for models that further increase the effectiveness of compression. On popular models (e.g. Llama 3) ZipNN shows space savings that are over 17% better than vanilla compression while also improving compression and decompression speeds by 62%. We estimate that these methods could save over an ExaByte per month of network traffic downloaded from a large model hub like Hugging Face.
arxiv情報
著者 | Moshik Hershcovitch,Andrew Wood,Leshem Choshen,Guy Girmonsky,Roy Leibovitz,Ilias Ennmouri,Michal Malka,Peter Chin,Swaminathan Sundararaman,Danny Harnik |
発行日 | 2025-06-04 15:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google