BMRS: Bayesian Model Reduction for Structured Pruning

要約

最新のニューラル ネットワークは、多くの場合、大幅にパラメータ化されており、トレーニング中および推論時の計算コストが高くなります。
良好なパフォーマンスを維持しながらニューラル ネットワークの計算効率とエネルギー効率の両方を向上させる効果的な方法の 1 つは、モデル出力に限定的な影響を与える完全なネットワーク構造 (ニューロンや畳み込みフィルターなど) を削除する構造化枝刈りです。
この研究では、構造化枝刈りの完全なエンドツーエンドのベイジアン手法である、構造化枝刈りのためのベイジアン モデル削減 (BMRS) を提案します。
BMRS は 2 つの最近の手法に基づいています。1 つは乗算ノイズを使用したベイジアン構造化枝刈り、もう 1 つはベイジアン モデル リダクション (BMR) です。ベイジアン モデル リダクション (BMR) は、事前変更の下でベイジアン モデルを効率的に比較できる手法です。
異なる構造化プルーニング特性を生み出す、異なる事前分布から導出された BMRS の 2 つの実現例を示します。1) しきい値を調整する必要がなく、信頼性の高い圧縮率と精度を提供する、切り捨てられた対数正規事前分布を使用する BMRS_N と、2) 切り詰められた対数を使用する BMRS_U
-均一な事前圧縮により、切り捨ての境界に基づいてより積極的な圧縮を実現できます。
全体として、BMRS は、高い圧縮率と精度の両方をもたらす、ニューラル ネットワークの構造化された枝刈りに対する理論に基づいたアプローチを提供していることがわかりました。
さまざまな複雑さの複数のデータセットとニューラル ネットワークに関する実験では、2 つの BMRS 手法が他の枝刈り手法と比較して、競合するパフォーマンスと効率のトレードオフを提供することが示されました。

要約(オリジナル)

Modern neural networks are often massively overparameterized leading to high compute costs during training and at inference. One effective method to improve both the compute and energy efficiency of neural networks while maintaining good performance is structured pruning, where full network structures (e.g.~neurons or convolutional filters) that have limited impact on the model output are removed. In this work, we propose Bayesian Model Reduction for Structured pruning (BMRS), a fully end-to-end Bayesian method of structured pruning. BMRS is based on two recent methods: Bayesian structured pruning with multiplicative noise, and Bayesian model reduction (BMR), a method which allows efficient comparison of Bayesian models under a change in prior. We present two realizations of BMRS derived from different priors which yield different structured pruning characteristics: 1) BMRS_N with the truncated log-normal prior, which offers reliable compression rates and accuracy without the need for tuning any thresholds and 2) BMRS_U with the truncated log-uniform prior that can achieve more aggressive compression based on the boundaries of truncation. Overall, we find that BMRS offers a theoretically grounded approach to structured pruning of neural networks yielding both high compression rates and accuracy. Experiments on multiple datasets and neural networks of varying complexity showed that the two BMRS methods offer a competitive performance-efficiency trade-off compared to other pruning methods.

arxiv情報

著者 Dustin Wright,Christian Igel,Raghavendra Selvan
発行日 2024-12-20 16:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク