要約
量子化と枝刈りはニューラル ネットワークの圧縮の基礎を形成し、大規模言語モデル (LLM) の効率的な推論を可能にします。
最近、さまざまな量子化および枝刈り技術が、トレーニング後の設定で顕著なパフォーマンスを実証しています。
これらは、レイヤーのアクティベーションを生成するために使用される、ラベルのないサンプルの小さなセットであるキャリブレーション データに依存します。
しかし、これまでの研究では、キャリブレーション データがモデル圧縮方法の有効性にどのような影響を与えるかを系統的に調査したものはありませんでした。
この論文では、LLM のパフォーマンスに対する校正データの影響に関する最初の大規模な実証研究を紹介します。
私たちは、さまざまな量子化と枝刈りの方法、データセット、タスク、モデルを試しています。
驚くべきことに、我々は下流タスクのパフォーマンスに大きな変動があることを発見し、キャリブレーションデータに対するより高いレベルのロバスト性を示唆する既存の研究とは対照的である。
最後に、LLM 量子化とプルーニングにおけるキャリブレーション データの効果的な使用に関する一連の推奨事項を示します。
要約(オリジナル)
Quantization and pruning form the foundation of compression for neural networks, enabling efficient inference for large language models (LLMs). Recently, various quantization and pruning techniques have demonstrated remarkable performance in a post-training setting. They rely upon calibration data, a small set of unlabeled examples that are used to generate layer activations. However, no prior work has systematically investigated how the calibration data impacts the effectiveness of model compression methods. In this paper, we present the first extensive empirical study on the effect of calibration data upon LLM performance. We trial a variety of quantization and pruning methods, datasets, tasks, and models. Surprisingly, we find substantial variations in downstream task performance, contrasting existing work that suggests a greater level of robustness to the calibration data. Finally, we make a series of recommendations for the effective use of calibration data in LLM quantization and pruning.
arxiv情報
著者 | Miles Williams,Nikolaos Aletras |
発行日 | 2024-08-12 17:57:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google