MLP Fusion: Towards Efficient Fine-tuning of Dense and Mixture-of-Experts Language Models

要約

事前トレーニング済み言語モデル (PLM) を微調整することは、多くの自然言語処理アプリケーションにおける主要な戦略として浮上しています。
ただし、このプロセスは、特にコンピューティング能力の低いエッジデバイスでは高価であることが知られています。
PLM 微調整の計算量やメモリを削減するために、一般的なアプローチ (量子化や蒸留など) が広く研究されていますが、微調整用に特別に設計されたワンショット圧縮技術はほとんど研究されていません。
この論文では、PLM の多層パーセプトロン (MLP) モジュールのニューラル タンジェント カーネル (NTK) (ニューラル ネットワークの勾配降下ダイナミクスを明らかにする) を調査し、NTK 近似 MLP 融合を通じて軽量 PLM を作成することを提案します。

NTK を圧縮プロセスに組み込むことにより、MLP Fusion は元のモデルの出力を保存するだけでなく、トレーニング ダイナミクスも維持します。
これを達成するために、MLP をサブ MLP のバンドルとして再検討し、それらを所定の数のセントロイドにクラスタリングします。その後、これを圧縮 MLP として復元し、驚くほどよく元の PLM の NTK に近似することができます。
私たちのアプローチは、標準的な MLP モジュールと PLM の Mixture-of-Experts (MoE) モジュールの両方に適用でき、そのスケーラビリティと多用途性を実証しています。
さらに、提案された圧縮によって NTK がどのように維持されるかを示す理論的な導出も提供します。
MLP 融合の有効性を検証するために、自然言語理解タスクと生成タスクの両方に対する PLM 微調整の広範な実験が提供されています。
私たちのコードは https://github.com/weitianxin/MLP_Fusion で入手できます。

要約(オリジナル)

Fine-tuning a pre-trained language model (PLM) emerges as the predominant strategy in many natural language processing applications. However, this process is known to be expensive, especially on edge devices with low computing power. While general approaches (e.g. quantization and distillation) have been widely studied to reduce the compute/memory of PLM fine-tuning, one-shot compression techniques specifically designed for fine-tuning remain largely unexplored. In this paper, we investigate the neural tangent kernel (NTK)–which reveals the gradient descent dynamics of neural networks–of the multilayer perceptrons (MLP) modules in a PLM and propose to coin a lightweight PLM through NTK-approximating MLP fusion. By incorporating NTK into the compression process, MLP Fusion not only preserves the original model’s output but also maintains its training dynamics. To achieve this, we reconsider the MLP as a bundle of sub-MLPs and cluster them into a given number of centroids, which can then be restored as a compressed MLP and surprisingly well approximate the NTK of the original PLM. Our approach is applicable to both standard MLP modules and Mixture-of-Experts (MoE) modules in PLMs, demonstrating its scalability and versatility. Additionally, we provide theoretical derivations to demonstrate how the proposed compression preserves the NTK. Extensive experiments of PLM fine-tuning on both natural language understanding and generation tasks are provided to verify the effectiveness of MLP fusion. Our code is available at https://github.com/weitianxin/MLP_Fusion.

arxiv情報

著者 Mengting Ai,Tianxin Wei,Yifan Chen,Zeming Guo,Jingrui He
発行日 2025-01-06 05:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク