Self-calibration for Language Model Quantization and Pruning

要約

量子化と枝刈りはモデル圧縮の基本的なアプローチであり、言語モデルの効率的な推論を可能にします。
トレーニング後の設定では、最先端の量子化および枝刈り手法では、ラベルのないサンプルの小さなセットであるキャリブレーション データが必要です。
従来は、モデルのトレーニング データを反映することを目的として、ランダムにサンプリングされた Web テキストが使用されていました。
ただし、これには 2 つの重要な問題が生じます。(1) 代表的ではないキャリブレーション例はモデルのパフォーマンスに悪影響を与える可能性がある、(2) 組織はモデル トレーニング データの公開を避ける傾向が強くなっています。
本稿では、その解決策としてセルフキャリブレーションを提案します。
私たちのアプローチでは外部データは必要なく、代わりにモデル自体を利用して、トレーニング前のデータ分布のより適切な近似として合成キャリブレーション データを生成します。
私たちは、さまざまなモデル、圧縮方法、タスクにわたって、セルフ キャリブレーションのパフォーマンスをいくつかのベースラインと広範囲に比較しています。
私たちのアプローチは、下流タスクのパフォーマンスを最大化する点で一貫して競争力があり、実際のデータを使用した場合でも優れたパフォーマンスを発揮することがよくあります。

要約(オリジナル)

Quantization and pruning are fundamental approaches for model compression, enabling efficient inference for language models. In a post-training setting, state-of-the-art quantization and pruning methods require calibration data, a small set of unlabeled examples. Conventionally, randomly sampled web text is used, aiming to reflect the model training data. However, this poses two key problems: (1) unrepresentative calibration examples can harm model performance, and (2) organizations increasingly avoid releasing model training data. In this paper, we propose self-calibration as a solution. Our approach requires no external data, instead leveraging the model itself to generate synthetic calibration data as a better approximation of the pre-training data distribution. We extensively compare the performance of self-calibration with several baselines, across a variety of models, compression methods, and tasks. Our approach proves consistently competitive in maximizing downstream task performance, frequently outperforming even using real data.

arxiv情報

著者 Miles Williams,George Chrysostomou,Nikolaos Aletras
発行日 2024-10-22 16:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク