要約
量子化と枝刈りはモデル圧縮の基本的なアプローチであり、言語モデルの効率的な推論を可能にします。
トレーニング後の設定では、最先端の量子化および枝刈り手法では、ラベルのないサンプルの小さなセットであるキャリブレーション データが必要です。
従来は、モデルのトレーニング データを反映することを目的として、ランダムにサンプリングされた Web テキストが使用されていました。
ただし、これには 2 つの重要な問題が生じます。(1) 代表的ではないキャリブレーション例はモデルのパフォーマンスに悪影響を与える可能性がある、(2) 組織はモデル トレーニング データの公開を避ける傾向が強くなっています。
本稿では、その解決策としてセルフキャリブレーションを提案します。
私たちのアプローチでは外部データは必要なく、代わりにモデル自体を利用して、トレーニング前のデータ分布のより適切な近似として合成キャリブレーション データを生成します。
私たちは、さまざまなモデル、圧縮方法、タスクにわたって、セルフ キャリブレーションのパフォーマンスをいくつかのベースラインと広範囲に比較しています。
私たちのアプローチは、下流タスクのパフォーマンスを最大化する点で一貫して競争力があり、実際のデータを使用した場合でも優れたパフォーマンスを発揮することがよくあります。
要約(オリジナル)
Quantization and pruning are fundamental approaches for model compression, enabling efficient inference for language models. In a post-training setting, state-of-the-art quantization and pruning methods require calibration data, a small set of unlabeled examples. Conventionally, randomly sampled web text is used, aiming to reflect the model training data. However, this poses two key problems: (1) unrepresentative calibration examples can harm model performance, and (2) organizations increasingly avoid releasing model training data. In this paper, we propose self-calibration as a solution. Our approach requires no external data, instead leveraging the model itself to generate synthetic calibration data as a better approximation of the pre-training data distribution. We extensively compare the performance of self-calibration with several baselines, across a variety of models, compression methods, and tasks. Our approach proves consistently competitive in maximizing downstream task performance, frequently outperforming even using real data.
arxiv情報
著者 | Miles Williams,George Chrysostomou,Nikolaos Aletras |
発行日 | 2024-10-22 16:50:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google