要約
言語モデルのサイズが増大することで、事前トレーニング済みモデルをフリーズし、複数の下流タスク (要約、質問応答、翻訳など) に小規模なトレーニング可能なパラメーターを注入する LoRA などのパラメーター効率の高い微調整に対する研究の大きな関心が高まっています。
微調整の効率をさらに高めるために、LoRA と構造化レイヤー プルーニングを統合するフレームワークを提案します。
統合フレームワークは、MIMIC-IV-Note に基づいて作成された 2 つの匿名化された医療レポート要約データセットと 2 つの公開医療対話データセットで検証されます。
元のモデルの 0.6% パラメーターを調整し、30% 以上のトランスフォーマー層をプルーニングすることで、私たちのフレームワークは、フリーテキスト シーケンスで 92% 以上の生成品質を維持しながら、GPU メモリ使用量を 50% 削減し、トレーニング フェーズを 100% 高速化できます。
-タスクをシーケンス化します。
要約(オリジナル)
The increasing size of language models raises great research interests in parameter-efficient fine-tuning such as LoRA that freezes the pre-trained model, and injects small-scale trainable parameters for multiple downstream tasks (e.g., summarization, question answering and translation). To further enhance the efficiency of fine-tuning, we propose a framework that integrates LoRA and structured layer pruning. The integrated framework is validated on two created deidentified medical report summarization datasets based on MIMIC-IV-Note and two public medical dialogue datasets. By tuning 0.6% parameters of the original model and pruning over 30% Transformer-layers, our framework can reduce 50% of GPU memory usage and speed up 100% of the training phase, while preserving over 92% generation qualities on free-text sequence-to-sequence tasks.
arxiv情報
著者 | Yunqi Zhu,Xuebing Yang,Yuanyuan Wu,Wensheng Zhang |
発行日 | 2023-05-19 01:29:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google