Revisiting the Equivalence of Bayesian Neural Networks and Gaussian Processes: On the Importance of Learning Activations

要約

ガウスプロセス(GPS)は、関数空間前のプライアーを指定するための便利なフレームワークを提供し、不確実性をモデル化するための自然な選択となっています。
対照的に、ベイジアンニューラルネットワーク(BNNS)はより大きなスケーラビリティと拡張性を提供しますが、GPSの有利な特性がありません。
これにより、GP様行動を複製できるBNNの開発が動機付けられます。
ただし、既存のソリューションは特定のGPカーネルに限定されるか、ヒューリスティックに依存しています。
訓練可能な活性化が、GPプライアーを幅広いBNNに効果的にマッピングするために重要であることを実証します。
具体的には、閉じた形式の2ワーザースタイン距離を活用して、リダメーター化されたプライアーと活性化の効率的な勾配ベースの最適化を活用します。
学習したアクティベーションを超えて、設計ごとにグローバルな定常性を確保するトレーニング可能な定期的なアクティベーションを導入し、GPハイパーパラメーターを条件として効率的なモデル選択を可能にする機能的プライアーも導入します。
経験的に、私たちの方法は、より強力な理論的基盤を提供しながら、既存のアプローチを一貫して上回るか、ヒューリスティックな方法のパフォーマンスを上回ります。

要約(オリジナル)

Gaussian Processes (GPs) provide a convenient framework for specifying function-space priors, making them a natural choice for modeling uncertainty. In contrast, Bayesian Neural Networks (BNNs) offer greater scalability and extendability but lack the advantageous properties of GPs. This motivates the development of BNNs capable of replicating GP-like behavior. However, existing solutions are either limited to specific GP kernels or rely on heuristics. We demonstrate that trainable activations are crucial for effective mapping of GP priors to wide BNNs. Specifically, we leverage the closed-form 2-Wasserstein distance for efficient gradient-based optimization of reparameterized priors and activations. Beyond learned activations, we also introduce trainable periodic activations that ensure global stationarity by design, and functional priors conditioned on GP hyperparameters to allow efficient model selection. Empirically, our method consistently outperforms existing approaches or matches performance of the heuristic methods, while offering stronger theoretical foundations.

arxiv情報

著者 Marcin Sendera,Amin Sorkhei,Tomasz Kuśmierczyk
発行日 2025-02-17 17:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク