Block-wise Bit-Compression of Transformer-based Models

要約

【タイトル】Transformerベースモデルのブロック単位のビット圧縮

【要約】
– 最近のTransformerベースモデル(BERT、GPT-3、ChatGPTなど)の人気により、自然言語処理タスクで他を圧倒する性能を発揮している。
– しかし、Transformerベースモデルの膨大な計算量、大きなメモリフットプリント、高レイテンシは、高リアルタイム要件のクラウドにとって必要不可欠な課題である。
– この問題に対処するために、再学習なしでTransformerのブロック単位のビット圧縮法であるBBCTを提案する。
– 我々の手法は、埋め込み、行列積、GELU、softmax、層正規化、中間結果を含む、全体のTransformerのより細かいグレードの圧縮を実現する。
– 事例として、効率的なBERTをBBCT方法で圧縮している。
– GLUEにおける私たちのベンチマークテストの結果は、ほとんどのタスクで1%以下の精度低下を実現できることを示している。

要約(オリジナル)

With the popularity of the recent Transformer-based models represented by BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive computations, huge memory footprint, and thus high latency of Transformer-based models is an inevitable challenge for the cloud with high real-time requirement. To tackle the issue, we propose BBCT, a method of block-wise bit-compression for transformer without retraining. Our method achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient BERT with the method of BBCT. Our benchmark test results on General Language Understanding Evaluation (GLUE) show that BBCT can achieve less than 1% accuracy drop in most tasks.

arxiv情報

著者 Gaochen Dong,Wei Chen
発行日 2023-04-01 12:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク