Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models

要約

Transformer 言語モデルの一般化に対するトレーニング後の量子化と量子化を意識したトレーニングの影響を調査します。
累積量子化誤差を最小限に抑え、ベースラインを上回るパフォーマンスを実現する自己蒸留量子化 (SDQ) と呼ばれる新しい方法を紹介します。
SDQ を多言語モデル XLM-R-Base および InfoXLM-Base に適用し、XGLUE ベンチマークで高レベルのパフォーマンスを維持しながら、両方のモデルを 32 ビット浮動小数点の重みから 8 ビット整数の重みに削減できることを実証します。
私たちの結果は、微調整されていない言語に一般化する必要がある多言語モデルの量子化の課題も浮き彫りにしています。

要約(オリジナル)

We investigate the effects of post-training quantization and quantization-aware training on the generalization of Transformer language models. We present a new method called self-distilled quantization (SDQ) that minimizes accumulative quantization errors and outperforms baselines. We apply SDQ to multilingual models XLM-R-Base and InfoXLM-Base and demonstrate that both models can be reduced from 32-bit floating point weights to 8-bit integer weights while maintaining a high level of performance on the XGLUE benchmark. Our results also highlight the challenges of quantizing multilingual models, which must generalize to languages they were not fine-tuned on.

arxiv情報

著者 James O’ Neill,Sourav Dutta
発行日 2023-07-12 07:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク