Bayesian Low-Rank LeArning (Bella): A Practical Approach to Bayesian Neural Networks

要約

ベイジアン学習の計算の複雑さは、実際の大規模なタスクへのベイズ学習の採用を妨げています。
非ベイジアンの対応物と比較して、目に見えない入力や分布外の入力に対する堅牢性や回復力の向上などの重要なメリットが実証されているにもかかわらず、その実用化はほとんど重要ではなくなりました。
この研究では、ベイジアン ニューラル ネットワーク (BNN) の計算負荷を軽減する革新的なフレームワークを紹介します。
私たちのアプローチはディープアンサンブルに基づくベイズ手法の原理に従いますが、事前トレーニングされたニューラルネットワークから生じるパラメーターの複数の低ランク摂動によってコストを大幅に削減します。
アンサンブルのバニラ バージョンと、以前は大規模なモデルでは非現実的であると考えられていたスタイン変分勾配降下法 (SVGD) を使用したベイズ学習などのより洗練されたスキームの両方を、ベイジアン低ランク学習 (Bella) と呼ばれる提案されたフレームワーク内でシームレスに実装できます。
簡単に言うと、i) Bella は、ベイジアン事後分布を近似するために必要なトレーニング可能なパラメーターの数を大幅に削減します。
ii) 従来のベイズ学習方法や非ベイズ ベースラインのパフォーマンスを維持するだけでなく、場合によってはそれを上回ります。
ImageNet、CAMELYON17、DomainNet、CLIP を使用した VQA、LLaVA などの大規模タスクでの結果は、実世界のアプリケーション向けに拡張性が高く実用的なベイジアン深層モデルを構築する際の Bella の有効性と多用途性を示しています。

要約(オリジナル)

Computational complexity of Bayesian learning is impeding its adoption in practical, large-scale tasks. Despite demonstrations of significant merits such as improved robustness and resilience to unseen or out-of-distribution inputs over their non- Bayesian counterparts, their practical use has faded to near insignificance. In this study, we introduce an innovative framework to mitigate the computational burden of Bayesian neural networks (BNNs). Our approach follows the principle of Bayesian techniques based on deep ensembles, but significantly reduces their cost via multiple low-rank perturbations of parameters arising from a pre-trained neural network. Both vanilla version of ensembles as well as more sophisticated schemes such as Bayesian learning with Stein Variational Gradient Descent (SVGD), previously deemed impractical for large models, can be seamlessly implemented within the proposed framework, called Bayesian Low-Rank LeArning (Bella). In a nutshell, i) Bella achieves a dramatic reduction in the number of trainable parameters required to approximate a Bayesian posterior; and ii) it not only maintains, but in some instances, surpasses the performance of conventional Bayesian learning methods and non-Bayesian baselines. Our results with large-scale tasks such as ImageNet, CAMELYON17, DomainNet, VQA with CLIP, LLaVA demonstrate the effectiveness and versatility of Bella in building highly scalable and practical Bayesian deep models for real-world applications.

arxiv情報

著者 Bao Gia Doan,Afshar Shamsi,Xiao-Yu Guo,Arash Mohammadi,Hamid Alinejad-Rokny,Dino Sejdinovic,Damith C. Ranasinghe,Ehsan Abbasnejad
発行日 2024-07-30 15:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク