Task-oriented Memory-efficient Pruning-Adapter

要約

大規模言語モデルの優れたパフォーマンスとサイズの増大により、パラメーター効率の高い学習への注目が高まっています。
主な 2 つのアプローチは、アダプターとプルーニングです。
アダプターはモデルを凍結し、側で新しい重み行列を与えることで、トレーニングの時間とメモリを大幅に削減できますが、評価とテストによって時間とメモリの消費量が増加するというコストがかかります。
プルーニングとは、一部の重みを切り取り、残りの重みを再分配することです。これにより、非常に多くのメモリとトレーニング時間を犠牲にしてトレーニングの複雑さが犠牲になり、評価とテストのコストが比較的低くなります。
そのため、トレーニングと推論の効率を同時に得ることはできません。
この作業では、トレーニングとメモリの高いメモリ効率を実現し、トレーニング時間を高速化し、GLUEタスクの精度を大幅に低下させず、トレーニングと推論の効率を同時に達成する、タスク指向のプルーニング アダプター法を提案します。
.

要約(オリジナル)

The Outstanding performance and growing size of Large Language Models has led to increased attention in parameter efficient learning. The two predominant approaches are Adapters and Pruning. Adapters are to freeze the model and give it a new weight matrix on the side, which can significantly reduce the time and memory of training, but the cost is that the evaluation and testing will increase the time and memory consumption. Pruning is to cut off some weight and re-distribute the remaining weight, which sacrifices the complexity of training at the cost of extremely high memory and training time, making the cost of evaluation and testing relatively low. So efficiency of training and inference can’t be obtained in the same time. In this work, we propose a task-oriented Pruning-Adapter method that achieve a high memory efficiency of training and memory, and speeds up training time and ensures no significant decrease in accuracy in GLUE tasks, achieving training and inference efficiency at the same time.

arxiv情報

著者 Guorun Wang,Qingqing Cao,Jun Yang,Yaoru Sun
発行日 2023-03-26 12:18:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク