Posterior and variational inference for deep neural networks with heavy-tailed weights

要約

ネットワークの重みをランダムにサンプリングする以前の分布を備えたベイジアンフレームワークの深いニューラルネットワークを検討します。
agapiouとcastillo(2023)の最近のアイデアに続いて、重度の尾のある事前分布が滑らかさへの自動適応を実現することを示しているため、ヘビーテールの重量とreluの活性化に基づいて、単純なベイジアンディープラーニングを導入します。
対応する後方分布は、ノンパラメトリック回帰、幾何学的データ、BESOVスペースなど、さまざまなコンテキストで、基礎となる関数の内因性次元と滑らかさの両方に同時に適応する、最適に近いミニマックス収縮率を達成することを示します。
これまでのところ、ほとんどの動作には事前の配信内にモデル選択の形式が組み込まれていますが、アプローチの重要な側面は、ネットワークのアーキテクチャを学習するためにハイパーパラメーターをサンプリングする必要がないことです。
また、結果の変分カウンターパートを提供します。これは、平均フィールドの変動近似が依然として最適に近い理論的サポートから恩恵を受けることを示しています。

要約(オリジナル)

We consider deep neural networks in a Bayesian framework with a prior distribution sampling the network weights at random. Following a recent idea of Agapiou and Castillo (2023), who show that heavy-tailed prior distributions achieve automatic adaptation to smoothness, we introduce a simple Bayesian deep learning prior based on heavy-tailed weights and ReLU activation. We show that the corresponding posterior distribution achieves near-optimal minimax contraction rates, simultaneously adaptive to both intrinsic dimension and smoothness of the underlying function, in a variety of contexts including nonparametric regression, geometric data and Besov spaces. While most works so far need a form of model selection built-in within the prior distribution, a key aspect of our approach is that it does not require to sample hyperparameters to learn the architecture of the network. We also provide variational Bayes counterparts of the results, that show that mean-field variational approximations still benefit from near-optimal theoretical support.

arxiv情報

著者 Ismaël Castillo,Paul Egels
発行日 2025-04-15 14:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク