要約
本論文では、低圧縮率でも高い性能を維持しながら、変換ブロックを線形演算で効果的に置き換える、一般化された訓練不要の奥行き刈り込み手法であるReplaceMeを紹介する。追加のトレーニングや微調整を必要とする従来の刈り込みアプローチとは対照的に、我々のアプローチでは、刈り込まれたブロックを近似する線形変換を推定するために使用される小さなキャリブレーションデータセットのみを必要とする。この推定された線形マッピングは残りの変換ブロックとシームレスにマージすることができ、ネットワークパラメータを追加する必要がありません。我々の実験によれば、ReplaceMeは他の学習不要のアプローチを常に凌駕し、大規模な再学習/微調整やアーキテクチャの変更を伴う最先端の刈り込み手法と高い競争力を維持しています。いくつかの大規模言語モデル(LLM)に適用した結果、ReplaceMeはオープンなベンチマークにおいて、元のモデルの約90%の性能を維持したまま、最大25%の刈り込みを達成しました。ReplaceMeを実装したオープンソースのライブラリは、このリポジトリで公開されています。
要約(オリジナル)
We introduce ReplaceMe, a generalized training-free depth pruning method that effectively replaces transformer blocks with a linear operation, while maintaining high performance for low compression ratios. In contrast to conventional pruning approaches that require additional training or fine-tuning, our approach requires only a small calibration dataset that is used to estimate a linear transformation to approximate the pruned blocks. This estimated linear mapping can be seamlessly merged with the remaining transformer blocks, eliminating the need for any additional network parameters. Our experiments show that ReplaceMe consistently outperforms other training-free approaches and remains highly competitive with state-of-the-art pruning methods that involve extensive retraining/fine-tuning and architectural modifications. Applied to several large language models (LLMs), ReplaceMe achieves up to 25% pruning while retaining approximately 90% of the original model’s performance on open benchmarks – without any training or healing steps, resulting in minimal computational overhead (see Fig.1). We provide an open-source library implementing ReplaceMe alongside several state-of-the-art depth pruning techniques, available at this repository.
arxiv情報
著者 | Dmitriy Shopkhoev,Ammar Ali,Magauiya Zhussip,Valentin Malykh,Stamatios Lefkimmiatis,Nikos Komodakis,Sergey Zagoruyko |
発行日 | 2025-05-05 17:47:42+00:00 |
arxivサイト | arxiv_id(pdf) |