Block-wise Bit-Compression of Transformer-based Models

要約

BERT、GPT-3、ChatGPT に代表される最近の Transformer ベースのモデルの人気により、さまざまな自然言語処理タスクで最先端のパフォーマンスが実現されています。
ただし、大規模な計算、巨大なメモリ フットプリント、およびそれによる Transformer ベースのモデルの高レイテンシは、高度なリアルタイム要件を持つクラウドにとって避けられない課題です。
この問題に取り組むために、再トレーニングなしでトランスフォーマーのブロック単位のビット圧縮を行う方法である BBCT を提案します。
私たちの方法は、埋め込み、行列乗算、GELU、ソフトマックス、レイヤーの正規化、およびすべての中間結果を含む、トランスフォーマー全体のよりきめの細かい圧縮を実現します。
例として、BBCT の方法で効率的な BERT を圧縮します。
General Language Understanding Evaluation (GLUE) に関するベンチマーク テストの結果は、BBCT がほとんどのタスクで 1% 未満の精度低下を達成できることを示しています。

要約(オリジナル)

With the popularity of the recent Transformer-based models represented by BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive computations, huge memory footprint, and thus high latency of Transformer-based models is an inevitable challenge for the cloud with high real-time requirement. To tackle the issue, we propose BBCT, a method of block-wise bit-compression for transformer without retraining. Our method achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient BERT with the method of BBCT. Our benchmark test results on General Language Understanding Evaluation (GLUE) show that BBCT can achieve less than 1% accuracy drop in most tasks.

arxiv情報

著者 Gaochen Dong,Wei Chen
発行日 2023-03-16 09:53:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク