Parameter-Efficient Fine-Tuning with Layer Pruning on Free-Text Sequence-to-Sequence Modeling

要約

言語モデルのサイズが増大することで、事前トレーニング済みモデルをフリーズし、複数の下流タスク (要約、質問応答、翻訳など) に小規模なトレーニング可能なパラメーターを注入する LoRA などのパラメーター効率の高い微調整に対する研究の大きな関心が高まっています。
微調整の効率をさらに高めるために、LoRA と構造化レイヤー プルーニングを統合するフレームワークを提案します。
統合フレームワークは、MIMIC-IV-Note に基づいて作成された 2 つの匿名化された医療レポート要約データセットと 2 つの公開医療対話データセットで検証されます。
元のモデルの 0.6% パラメーターを調整し、30% 以上のトランスフォーマー層をプルーニングすることで、私たちのフレームワークは、フリーテキスト シーケンスで 92% 以上の生成品質を維持しながら、GPU メモリ使用量を 50% 削減し、トレーニング フェーズを 100% 高速化できます。
-タスクをシーケンス化します。

要約(オリジナル)

The increasing size of language models raises great research interests in parameter-efficient fine-tuning such as LoRA that freezes the pre-trained model, and injects small-scale trainable parameters for multiple downstream tasks (e.g., summarization, question answering and translation). To further enhance the efficiency of fine-tuning, we propose a framework that integrates LoRA and structured layer pruning. The integrated framework is validated on two created deidentified medical report summarization datasets based on MIMIC-IV-Note and two public medical dialogue datasets. By tuning 0.6% parameters of the original model and pruning over 30% Transformer-layers, our framework can reduce 50% of GPU memory usage and speed up 100% of the training phase, while preserving over 92% generation qualities on free-text sequence-to-sequence tasks.

arxiv情報

著者 Yunqi Zhu,Xuebing Yang,Yuanyuan Wu,Wensheng Zhang
発行日 2023-05-19 01:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク