要約
テンソル分解を改善したニューラル ネットワーク モデル圧縮の新しい方法である TQCompressor を紹介します。
私たちは、NLP タスクにおける事前トレーニングされた言語モデルの計算およびストレージの需要によってもたらされる課題を調査し、クロネッカー分解に対する置換ベースの拡張を提案します。
この機能強化により、通常因数分解に伴うモデルの表現力の損失を軽減できます。
この方法を GPT-2$_{small}$ に適用した例を示します。
圧縮の結果は、8100 万を特徴とする TQCompressedGPT-2 モデルです。
パラメータを1億2,400万と比較。
GPT-2$_{small}$ にあります。
TQCompressedGPT-2 を一般公開します。
OpenWebText のわずか 3.1% を使用して、複数ステップの知識の蒸留を含むトレーニング戦略を通じて、TQCompressedGPT-2 のパフォーマンスをさらに強化しました。
TQCompressedGPT-2 は、比較評価において DistilGPT-2 および KnGPT-2 を上回り、リソースに制約のある環境でのモデルの効率的かつ効果的な展開が進歩しました。
要約(オリジナル)
We introduce TQCompressor, a novel method for neural network model compression with improved tensor decompositions. We explore the challenges posed by the computational and storage demands of pre-trained language models in NLP tasks and propose a permutation-based enhancement to Kronecker decomposition. This enhancement makes it possible to reduce loss in model expressivity which is usually associated with factorization. We demonstrate this method applied to the GPT-2$_{small}$. The result of the compression is TQCompressedGPT-2 model, featuring 81 mln. parameters compared to 124 mln. in the GPT-2$_{small}$. We make TQCompressedGPT-2 publicly available. We further enhance the performance of the TQCompressedGPT-2 through a training strategy involving multi-step knowledge distillation, using only a 3.1% of the OpenWebText. TQCompressedGPT-2 surpasses DistilGPT-2 and KnGPT-2 in comparative evaluations, marking an advancement in the efficient and effective deployment of models in resource-constrained environments.
arxiv情報
著者 | V. Abronin,A. Naumov,D. Mazur,D. Bystrov,K. Tsarova,Ar. Melnikov,I. Oseledets,S. Dolgov,R. Brasher,M. Perelshtein |
発行日 | 2024-01-29 18:07:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google