Self-calibration for Language Model Quantization and Pruning

要約

量子化と剪定は、モデル圧縮の基本的なアプローチであり、言語モデルの効率的な推論を可能にします。
トレーニング後の設定では、最先端の量子化および剪定方法には、較正データの小さなセットであるキャリブレーションデータが必要です。
従来、これはランダムにサンプリングされたWebテキストであり、モデルトレーニングデータを反映することを目的としています。
ただし、これには2つの重要な問題が発生します。(1)非代表的なキャリブレーションの例は、モデルのパフォーマンスに害を及ぼす可能性があり、(2)組織がモデルトレーニングデータのリリースをますます回避します。
この論文では、解決策としてセルフキャリブレーションを提案します。
私たちのアプローチには、外部データは必要ありません。代わりに、モデル自体を活用して合成キャリブレーションデータを生成し、トレーニング前のデータ分布をより適切に近似します。
さまざまなモデル、圧縮方法、タスクにわたるいくつかのベースラインと自己キャリブレーションのパフォーマンスを広く比較します。
私たちのアプローチは、ダウンストリームタスクのパフォーマンスを最大化する上で一貫して競争力があり、実際のデータを使用しても頻繁にアウトパフォーマンスしています。

要約(オリジナル)

Quantization and pruning are fundamental approaches for model compression, enabling efficient inference for language models. In a post-training setting, state-of-the-art quantization and pruning methods require calibration data, a small set of unlabeled examples. Conventionally, this is randomly sampled web text, aiming to reflect the model training data. However, this poses two key problems: (1) unrepresentative calibration examples can harm model performance, and (2) organizations increasingly avoid releasing model training data. In this paper, we propose self-calibration as a solution. Our approach requires no external data, instead leveraging the model itself to generate synthetic calibration data, with a view to better approximating the pre-training data distribution. We extensively compare the performance of self-calibration with several baselines, across a variety of models, compression methods, and tasks. Our approach proves consistently competitive in maximizing downstream task performance, frequently outperforming even using real data.

arxiv情報

著者 Miles Williams,George Chrysostomou,Nikolaos Aletras
発行日 2025-02-26 17:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク