CURing Large Models: Compression via CUR Decomposition

要約

大規模な深層学習モデルは目覚ましい成功を収めていますが、リソースを大量に消費するため、メモリ使用量などの課題が生じています。
CURing は、CUR 行列分解に基づく新しいモデル圧縮方法であり、選択された列 (C) と行 (R) と小さなリンク行列 (U) の積として重み行列を近似します。
この分解を、その大きさと活性化の組み合わせた影響に基づいて選択された重みに適用します。
CURing は、有益な行と列を識別して保持することにより、パフォーマンスの損失を最小限に抑えながらモデルのサイズを大幅に削減します。
たとえば、Llama3.1-8B のパラメータをわずか 129 秒で 7.32B (-9%) に削減します。これは、以前の圧縮方法よりも 20 倍以上高速です。

要約(オリジナル)

Large deep learning models have achieved remarkable success but are resource-intensive, posing challenges such as memory usage. We introduce CURing, a novel model compression method based on CUR matrix decomposition, which approximates weight matrices as the product of selected columns (C) and rows (R), and a small linking matrix (U). We apply this decomposition to weights chosen based on the combined influence of their magnitudes and activations. By identifying and retaining informative rows and columns, CURing significantly reduces model size with minimal performance loss. For example, it reduces Llama3.1-8B’s parameters to 7.32B (-9%) in just 129 seconds, over 20 times faster than prior compression methods.

arxiv情報

著者 Sanghyeon Park,Soo-Mook Moon
発行日 2025-01-10 14:36:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク