Transformer Compression via Subspace Projection

要約

我々は、モデルの隠れたサイズを削減することに焦点を当てて変圧器モデルを圧縮するための新しい方法である TCSP を提案します。
変換モデル全体を部分空間に投影することで、モデル内の重み行列と低次元空間内の特徴の間の行列演算が可能になり、モデル パラメーターとコンピューティング リソースの大幅な削減につながります。
この部分空間を確立するには、サンプリングされたデータ インスタンスのさまざまな層から導出された特徴行列を射影行列に分解します。
評価では、GLUE および SQuAD ベンチマークで T5 および BERT モデルを圧縮するために TCSP が適用されます。
実験結果は、TCSP が精度の最大 1.6\% の低下を伴いながら 44\% の圧縮率を達成し、以前の圧縮方法を上回る、または同等であることを示しています。
さらに、TCSP は、フィルターや注目のヘッド サイズ圧縮をターゲットとする他の方法との互換性を示します。

要約(オリジナル)

We propose TCSP, a novel method for compressing a transformer model by focusing on reducing the hidden size of the model. By projecting the whole transform model into a subspace, we enable matrix operations between the weight matrices in the model and features in a reduced-dimensional space, leading to significant reductions in model parameters and computing resources. To establish this subspace, we decompose the feature matrix, derived from different layers of sampled data instances, into a projection matrix. For evaluation, TCSP is applied to compress T5 and BERT models on the GLUE and SQuAD benchmarks. Experimental results demonstrate that TCSP achieves a compression ratio of 44\% with at most 1.6\% degradation in accuracy, surpassing or matching prior compression methods. Furthermore, TCSP exhibits compatibility with other methods targeting filter and attention head size compression.

arxiv情報

著者 Yuxuan Hu,Jing Zhang,Chen Zhao,Cuiping Li,Hong Chen
発行日 2023-08-31 05:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク