Bayesian sparsification for deep neural networks with Bayesian model reduction

要約

ディープラーニングの膨大な機能は、モデルの複雑さによって制約されることが多く、効果的なスパース化技術に対する需要が高まっています。
ディープ ラーニングのベイズ スパース化は、さまざまなディープ ラーニング アプリケーションにわたって、計算効率とパフォーマンスの点で競争力のあるモデルの設計を容易にする重要なアプローチとして浮上しています。
最先端のディープ ニューラル ネットワークのベイジアン スパース化では、モデルの重みに関する構造収縮事前分布と、ブラック ボックスの確率変分推論に基づく近似推論スキームを組み合わせています。
ただし、完全な生成モデルのモデル反転は、特に点推定の標準的な深層学習と比較した場合、計算量が非常に多くなります。
これに関連して、モデルの重みを枝刈りするためのより効率的な代替手段としてベイジアン モデル リダクション (BMR) を使用することを推奨します。
Savage-Dickey 比の一般化として、BMR では、直接的な (非階層的な) 生成モデルの下での事後推定に基づいて、冗長なモデルの重みを事後的に削除できます。
私たちの比較研究は、完全な階層生成モデルに適用した場合の、確立された確率変分推論 (SVI) スキームと比較した BMR 法の計算効率と枝刈り率を強調しています。
LeNet のような古典的なネットワークから、ビジョン トランスフォーマーや MLP ミキサーなどの最新のフレームワークに至るまで、さまざまな深層学習アーキテクチャにわたってモデル パラメーターをプルーニングする BMR の可能性を示します。

要約(オリジナル)

Deep learning’s immense capabilities are often constrained by the complexity of its models, leading to an increasing demand for effective sparsification techniques. Bayesian sparsification for deep learning emerges as a crucial approach, facilitating the design of models that are both computationally efficient and competitive in terms of performance across various deep learning applications. The state-of-the-art — in Bayesian sparsification of deep neural networks — combines structural shrinkage priors on model weights with an approximate inference scheme based on black-box stochastic variational inference. However, model inversion of the full generative model is exceptionally computationally demanding, especially when compared to standard deep learning of point estimates. In this context, we advocate for the use of Bayesian model reduction (BMR) as a more efficient alternative for pruning of model weights. As a generalization of the Savage-Dickey ratio, BMR allows a post-hoc elimination of redundant model weights based on the posterior estimates under a straightforward (non-hierarchical) generative model. Our comparative study highlights the computational efficiency and the pruning rate of the BMR method relative to the established stochastic variational inference (SVI) scheme, when applied to the full hierarchical generative model. We illustrate the potential of BMR to prune model parameters across various deep learning architectures, from classical networks like LeNet to modern frameworks such as Vision Transformers and MLP-Mixers.

arxiv情報

著者 Dimitrije Marković,Karl J. Friston,Stefan J. Kiebel
発行日 2023-09-21 14:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.CV, cs.LG, stat.ML パーマリンク