要約
事前トレーニング済み言語モデル (PLM) を微調整することは、多くの自然言語処理アプリケーションにおける主要な戦略として浮上しています。
ただし、PLM を微調整して推論を実行するだけでも、特にコンピューティング能力の低いエッジ デバイスではコストがかかります。
PLM 微調整の計算量やメモリを削減するために、いくつかの一般的なアプローチ (量子化や蒸留など) が広く研究されていますが、ワンショット圧縮技術はほとんど研究されていません。
この論文では、PLM の多層パーセプトロン (MLP) モジュールのニューラル タンジェント カーネル (NTK) (ニューラル ネットワークの勾配降下ダイナミクスを明らかにする) を調査し、NTK 近似 MLP 融合を通じて軽量 PLM を作成することを提案します。
。
これを達成するために、MLP をサブ MLP のバンドルとして再検討し、それらを所定の数のセントロイドにクラスタリングします。これを圧縮 MLP として復元すると、驚くべきことに、元の PLM の NTK によく近似していることがわかります。
提案された手法 MLP 融合の有効性を検証するために、自然言語理解 (NLU) タスクと生成 (NLG) タスクの両方に対する PLM 微調整の広範な実験が提供されています。
私たちのコードは https://github.com/weitianxin/MLP_Fusion で入手できます。
要約(オリジナル)
Fine-tuning a pre-trained language model (PLM) emerges as the predominant strategy in many natural language processing applications. However, even fine-tuning the PLMs and doing inference are expensive, especially on edge devices with low computing power. Some general approaches (e.g. quantization and distillation) have been widely studied to reduce the compute/memory of PLM fine-tuning, while very few one-shot compression techniques are explored. In this paper, we investigate the neural tangent kernel (NTK)–which reveals the gradient descent dynamics of neural networks–of the multilayer perceptrons (MLP) modules in a PLM and propose to coin a lightweight PLM through NTK-approximating MLP fusion. To achieve this, we reconsider the MLP as a bundle of sub-MLPs, and cluster them into a given number of centroids, which can then be restored as a compressed MLP and surprisingly shown to well approximate the NTK of the original PLM. Extensive experiments of PLM fine-tuning on both natural language understanding (NLU) and generation (NLG) tasks are provided to verify the effectiveness of the proposed method MLP fusion. Our code is available at https://github.com/weitianxin/MLP_Fusion.
arxiv情報
著者 | Tianxin Wei,Zeming Guo,Yifan Chen,Jingrui He |
発行日 | 2023-07-18 03:12:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google