要約
大規模なモデルのサイズの急速な成長は、コンピューティングリソースの成長をはるかに上回っています。
脳の成長と発達における遺伝子型と表現型の間の節約的な関係によって奨励されたこのギャップを埋めるために、私たちは、モデル圧縮をハイパー機能を介してパラメーター表現の問題に変えるいわゆるハイパー圧縮を提案します。
具体的には、いくつかの低次元動的システムの軌跡が最終的に高次元空間を埋めることができることが知られています。
したがって、これらの動的システムをハイパーファンクションとして使用するハイパーコンプレッションは、対応する構成数または軌跡の長さによってターゲットネットワークのパラメーターを表します。
これは、既存の剪定、量子化、蒸留、分解とは大幅に異なるモデル圧縮の新しいメカニズムを示唆しています。
この方向に沿って、私たちは方法論的に、非合理的な巻き取りを伴う適切な動的システムを、膨大な機能として、それに関連するエラーバウンドを理論的に導き出します。
次に、理論的な洞察に導かれ、ハイパーコンプレッションを実用的で効果的にするために、いくつかのエンジニアリングのひねりを提案します。
最後に、体系的かつ包括的な実験では、ハイパーコンプレッションが次の\ textbf {pnas}メリットを享受していることを確認します:1)\ textbf {p}参照可能な圧縮比。
2)\ textbf {n} o事後再訓練。
3)\ textbf {a} ffordable推論時間;
および4)\ textbf {s} Hort圧縮時間。
1時間でllama2-7bを圧縮し、再訓練なしで、1 \%未満のパフォーマンス低下で、INT4測量化パフォーマンスを達成します。
無料ダウンロードと評価のために、https://github.com/juntongkuki/hyper-compression.gitでコードをオープンソースしました。
要約(オリジナル)
The rapid growth of large models’ size has far outpaced that of computing resources. To bridge this gap, encouraged by the parsimonious relationship between genotype and phenotype in the brain’s growth and development, we propose the so-called hyper-compression that turns the model compression into the issue of parameter representation via a hyperfunction. Specifically, it is known that the trajectory of some low-dimensional dynamic systems can fill the high-dimensional space eventually. Thus, hyper-compression, using these dynamic systems as the hyperfunctions, represents the parameters of the target network by their corresponding composition number or trajectory length. This suggests a novel mechanism for model compression, substantially different from the existing pruning, quantization, distillation, and decomposition. Along this direction, we methodologically identify a suitable dynamic system with the irrational winding as the hyperfunction and theoretically derive its associated error bound. Next, guided by our theoretical insights, we propose several engineering twists to make the hyper-compression pragmatic and effective. Lastly, systematic and comprehensive experiments confirm that hyper-compression enjoys the following \textbf{PNAS} merits: 1) \textbf{P}referable compression ratio; 2) \textbf{N}o post-hoc retraining; 3) \textbf{A}ffordable inference time; and 4) \textbf{S}hort compression time. It compresses LLaMA2-7B in an hour and achieves close-to-int4-quantization performance, without retraining and with a performance drop of less than 1\%. We have open-sourced our code in https://github.com/Juntongkuki/Hyper-Compression.git for free download and evaluation.
arxiv情報
著者 | Fenglei Fan,Juntong Fan,Dayang Wang,Jingbo Zhang,Zelin Dong,Shijun Zhang,Ge Wang,Tieyong Zeng |
発行日 | 2025-04-02 13:58:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google