要約
LLMSのメモリフットプリントを削減するための新しいトレーニング後の圧縮技術であるDeltallmを紹介します。
後続の変圧器ブロックのレイヤー間の重量共有を備えたLLMSを構築する別の方法と、それらの間の追加の低ランク差マトリックスを提案します。
トレーニングのために、進行中のモジュール交換方法を採用し、約30m〜40mのトークンを備えた低ランクモジュールの軽量トレーニングが、ゼロからトレーニングされた同等のサイズのLLMと同等のパフォーマンスを達成するのに十分であることを示します。
結果のモデルであるDeltallamaとDeltaphiをリリースし、12%のパラメーター削減を行い、基本ラマとPHIモデルのパフォーマンスの90%を一般的な知識と推論ベンチマークで保持します。
また、私たちの方法は、同じ数のパラメーターを削除して、圧縮技術のジョイントドロップ、LACO、ShortGPT、およびSliceGPTを上回ります。
たとえば、24%の減少でデルタフィ2.9Bは、回復が微調整されたスライスフィ3.3bと同様の平均ゼロショット精度を達成し、約400mパラメーターが小さく、微調整が適用されません。
この作業は、ストレージスペースが重要な場合、LLMアーキテクチャの設計と圧縮方法に関する新しい洞察を提供します。
要約(オリジナル)
We introduce DeltaLLM, a new post-training compression technique to reduce the memory footprint of LLMs. We propose an alternative way of structuring LLMs with weight sharing between layers in subsequent Transformer blocks, along with additional low-rank difference matrices between them. For training, we adopt the progressing module replacement method and show that the lightweight training of the low-rank modules with approximately 30M-40M tokens is sufficient to achieve performance on par with LLMs of comparable sizes trained from scratch. We release the resultant models, DeltaLLAMA and DeltaPHI, with a 12% parameter reduction, retaining 90% of the performance of the base Llama and Phi models on common knowledge and reasoning benchmarks. Our method also outperforms compression techniques JointDrop, LaCo, ShortGPT and SliceGPT with the same number of parameters removed. For example, DeltaPhi 2.9B with a 24% reduction achieves similar average zero-shot accuracies as recovery fine-tuned SlicedPhi 3.3B with a 12% reduction, despite being approximately 400M parameters smaller with no fine-tuning applied. This work provides new insights into LLM architecture design and compression methods when storage space is critical.
arxiv情報
著者 | Liana Mikaelyan,Ayyoob Imani,Mathew Salvaris,Parth Pathak,Mohsen Fayyaz |
発行日 | 2025-01-30 18:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google