TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on the Tensor-Train Decomposition

要約

高次元のトークン埋め込みは、微妙な意味情報を捕捉し、複雑な言語パターンのモデリングを大幅に強化できるため、大規模言語モデル (LLM) を支えます。
ただし、これに伴う高次元性により、かなりのモデル パラメーターが導入され、法外に大量のモデル ストレージが必要になります。
この問題に対処するために、この研究では Tensor-Train Decomposition (TTD) に基づくアプローチを提案します。このアプローチでは、各トークンの埋め込みが、分散方式で効率的に計算できる Matrix Product State (MPS) として扱われます。
GPT-2 の実験結果は、私たちのアプローチにより、埋め込み層を最大 38.40 倍圧縮でき、圧縮率が 3.31 倍の場合には、元の GPT-2 モデルよりも優れたパフォーマンスを生み出すことを示しています。

要約(オリジナル)

High-dimensional token embeddings underpin Large Language Models (LLMs), as they can capture subtle semantic information and significantly enhance the modelling of complex language patterns. However, the associated high dimensionality also introduces considerable model parameters, and a prohibitively high model storage. To address this issue, this work proposes an approach based on the Tensor-Train Decomposition (TTD), where each token embedding is treated as a Matrix Product State (MPS) that can be efficiently computed in a distributed manner. The experimental results on GPT-2 demonstrate that, through our approach, the embedding layer can be compressed by a factor of up to 38.40 times, and when the compression factor is 3.31 times, even produced a better performance than the original GPT-2 model.

arxiv情報

著者 Mingxue Xu,Yao Lei Xu,Danilo P. Mandic
発行日 2023-07-02 09:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NA, cs.NE, math.NA パーマリンク