要約
【タイトル】Transformerベースモデルのブロック単位のビット圧縮
【要約】
– 最近のTransformerベースモデル(BERT、GPT-3、ChatGPTなど)の人気により、自然言語処理タスクで他を圧倒する性能を発揮している。
– しかし、Transformerベースモデルの膨大な計算量、大きなメモリフットプリント、高レイテンシは、高リアルタイム要件のクラウドにとって必要不可欠な課題である。
– この問題に対処するために、再学習なしでTransformerのブロック単位のビット圧縮法であるBBCTを提案する。
– 我々の手法は、埋め込み、行列積、GELU、softmax、層正規化、中間結果を含む、全体のTransformerのより細かいグレードの圧縮を実現する。
– 事例として、効率的なBERTをBBCT方法で圧縮している。
– GLUEにおける私たちのベンチマークテストの結果は、ほとんどのタスクで1%以下の精度低下を実現できることを示している。
要約(オリジナル)
With the popularity of the recent Transformer-based models represented by BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive computations, huge memory footprint, and thus high latency of Transformer-based models is an inevitable challenge for the cloud with high real-time requirement. To tackle the issue, we propose BBCT, a method of block-wise bit-compression for transformer without retraining. Our method achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient BERT with the method of BBCT. Our benchmark test results on General Language Understanding Evaluation (GLUE) show that BBCT can achieve less than 1% accuracy drop in most tasks.
arxiv情報
| 著者 | Gaochen Dong,Wei Chen |
| 発行日 | 2023-04-01 12:50:29+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI