要約
量子化と剪定は、モデル圧縮の基本的なアプローチであり、言語モデルの効率的な推論を可能にします。
トレーニング後の設定では、最先端の量子化および剪定方法には、較正データの小さなセットであるキャリブレーションデータが必要です。
従来、これはランダムにサンプリングされたWebテキストであり、モデルトレーニングデータを反映することを目的としています。
ただし、これには2つの重要な問題が発生します。(1)非代表的なキャリブレーションの例は、モデルのパフォーマンスに害を及ぼす可能性があり、(2)組織がモデルトレーニングデータのリリースをますます回避します。
この論文では、解決策としてセルフキャリブレーションを提案します。
私たちのアプローチには、外部データは必要ありません。代わりに、モデル自体を活用して合成キャリブレーションデータを生成し、トレーニング前のデータ分布をより適切に近似します。
さまざまなモデル、圧縮方法、タスクにわたるいくつかのベースラインと自己キャリブレーションのパフォーマンスを広く比較します。
私たちのアプローチは、ダウンストリームタスクのパフォーマンスを最大化する上で一貫して競争力があり、実際のデータを使用しても頻繁にアウトパフォーマンスしています。
要約(オリジナル)
Quantization and pruning are fundamental approaches for model compression, enabling efficient inference for language models. In a post-training setting, state-of-the-art quantization and pruning methods require calibration data, a small set of unlabeled examples. Conventionally, this is randomly sampled web text, aiming to reflect the model training data. However, this poses two key problems: (1) unrepresentative calibration examples can harm model performance, and (2) organizations increasingly avoid releasing model training data. In this paper, we propose self-calibration as a solution. Our approach requires no external data, instead leveraging the model itself to generate synthetic calibration data, with a view to better approximating the pre-training data distribution. We extensively compare the performance of self-calibration with several baselines, across a variety of models, compression methods, and tasks. Our approach proves consistently competitive in maximizing downstream task performance, frequently outperforming even using real data.
arxiv情報
著者 | Miles Williams,George Chrysostomou,Nikolaos Aletras |
発行日 | 2025-02-26 17:40:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google