Blockwise Compression of Transformer-based Models without Retraining

要約

タイトル:再学習なしでTransformerベースモデルのブロック単位の圧縮

要約:

– Transformerベースモデル(GPT-3、ChatGPT、GPT-4)の計算リソースとメモリ使用量は高いため、展開の障壁となっている。
– BCTというブロック単位の圧縮フレームワークを提案し、再学習なしにトランスフォーマー全体をより細かく圧縮することができる。
– 圧縮モデルを評価するために、BCTを使用して効率的なモデルを圧縮し、複数のGLUEデータセットで評価を行った。
– 結果は、ほとんどのタスクで0.90%以下の精度低下を示した。

要約(オリジナル)

Transformer-based models, represented by GPT-3, ChatGPT, and GPT-4, have recently attracted increasing interest, research enthusiasm, and business demand. However, their massive computation resources and huge memory footprint are inevitable challenges. To tackle this issue, we propose BCT, a framework of blockwise compression for transformers without retraining, to lower deployment thresholds. BCT achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, Softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient model with BCT and evaluate it on several General Language Understanding Evaluation (GLUE) datasets. The results show that BCT can achieve a less than 0.90% accuracy drop in most tasks.

arxiv情報

著者 Gaochen Dong,Wei Chen
発行日 2023-04-04 02:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク