要約
事前にトレーニングされた言語モデルが与えられた場合、再トレーニングせずにそれを効率的に圧縮するにはどうすればよいでしょうか?
再トレーニング不要の構造化枝刈りアルゴリズムは、枝刈りコストが大幅に削減され、大規模な言語モデルを枝刈りできるため、事前トレーニング済み言語モデルの圧縮において重要です。
ただし、既存の再トレーニング不要のアルゴリズムは、事前トレーニングされたモデルの有用な知識を保存できないため、深刻な精度の低下に遭遇します。
この論文では、事前トレーニングされた言語モデルのための正確な再トレーニング不要の構造化枝刈りアルゴリズムである K 枝刈り (知識保存枝刈り) を提案します。
K プルーニングは、固有の知識の量に基づいて、不必要とみなされるアテンション ヘッドとニューロンを特定し、プルーニングします。
K 枝刈りは、枝刈りの反復プロセスを適用し、その後、各サブレイヤーの知識を再構築して、事前トレーニングされたモデルの知識を保存します。
その結果、K 枝刈りは、SQuAD ベンチマークで 80% の高い圧縮率の下で、既存の再トレーニング不要の枝刈りアルゴリズムよりも最大 58.02%p 高い F1 スコアを示します。
要約(オリジナル)
Given a pre-trained language model, how can we efficiently compress it without retraining? Retraining-free structured pruning algorithms are crucial in pre-trained language model compression due to their significantly reduced pruning cost and capability to prune large language models. However, existing retraining-free algorithms encounter severe accuracy degradation, as they fail to preserve the useful knowledge of pre-trained models. In this paper, we propose K-pruning (Knowledge-preserving pruning), an accurate retraining-free structured pruning algorithm for pre-trained language models. K-pruning identifies and prunes attention heads and neurons deemed to be superfluous, based on the amount of their inherent knowledge. K-pruning applies an iterative process of pruning followed by knowledge reconstruction for each sub-layer to preserve the knowledge of the pre-trained models. Consequently, K-pruning shows up to 58.02%p higher F1 score than existing retraining-free pruning algorithms under a high compression rate of 80% on the SQuAD benchmark.
arxiv情報
| 著者 | Seungcheol Park,Hojun Choi,U Kang |
| 発行日 | 2023-08-07 10:11:42+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google