要約
私たちは、オープンウェイトの事前トレーニング済み LLM の一般的なファミリーに対する単純なレイヤー枝刈り戦略を経験的に研究し、レイヤーの大部分 (最大半分) が削除されるまで、さまざまな質問応答ベンチマークでのパフォーマンスの低下が最小限に抑えられることを発見しました。
これらのモデルを枝刈りするために、層間の類似性を考慮して、枝刈りに最適な層のブロックを特定します。
次に、損傷を「修復」するために、少量の微調整を実行します。
特に、パラメーター効率の良い微調整 (PEFT) 手法、特に量子化と低ランク アダプター (QLoRA) を使用して、各実験を単一の A100 GPU で実行できます。
実用的な観点から、これらの結果は、レイヤープルーニング手法が他の PEFT 戦略を補完して微調整の計算リソースをさらに削減できる一方で、推論のメモリとレイテンシーを改善できることを示唆しています。
科学的な観点から見ると、層の削除に対するこれらの LLM の堅牢性は、現在の事前トレーニング方法がネットワークのより深い層のパラメーターを適切に活用していないこと、または浅い層が知識の保存において重要な役割を果たしていることを意味します。
要約(オリジナル)
We empirically study a simple layer-pruning strategy for popular families of open-weight pretrained LLMs, finding minimal degradation of performance on different question-answering benchmarks until after a large fraction (up to half) of the layers are removed. To prune these models, we identify the optimal block of layers to prune by considering similarity across layers; then, to ‘heal’ the damage, we perform a small amount of finetuning. In particular, we use parameter-efficient finetuning (PEFT) methods, specifically quantization and Low Rank Adapters (QLoRA), such that each of our experiments can be performed on a single A100 GPU. From a practical perspective, these results suggest that layer pruning methods can complement other PEFT strategies to further reduce computational resources of finetuning on the one hand, and can improve the memory and latency of inference on the other hand. From a scientific perspective, the robustness of these LLMs to the deletion of layers implies either that current pretraining methods are not properly leveraging the parameters in the deeper layers of the network or that the shallow layers play a critical role in storing knowledge.
arxiv情報
著者 | Andrey Gromov,Kushal Tirumala,Hassan Shapourian,Paolo Glorioso,Daniel A. Roberts |
発行日 | 2024-03-26 17:20:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google