Can a Confident Prior Replace a Cold Posterior?

要約

画像分類に使われるベンチマークデータセットは、ラベルノイズのレベルが非常に低い傾向がある。このようなデータセットでベイジアンニューラルネットワークを訓練すると、しばしばアンダーフィットし、データの不確実性を誤って表現してしまう。一般的な解決策は事後的に冷却することであるが、これは訓練データへの適合を改善するが、ベイズの観点からは解釈が難しい。我々は、事後冷却を信頼度を誘導する事前分布で置き換えることができるかどうかを検討する。まず、サンプリングが実用的で、冷たい事後分布の性能とほぼ一致する「DirClip」事前分布を導入する。第二に、温度が低下する極限において冷たい尤度に直接近似するが、簡単にサンプリングできない「確信度事前分布」を紹介する。最後に、どのような場合に発散するのか、どのように微調整すれば数値的不安定性を軽減できるのかなど、信頼性事前分布に関する一般的な洞察をいくつか示す。

要約(オリジナル)

Benchmark datasets used for image classification tend to have very low levels of label noise. When Bayesian neural networks are trained on these datasets, they often underfit, misrepresenting the aleatoric uncertainty of the data. A common solution is to cool the posterior, which improves fit to the training data but is challenging to interpret from a Bayesian perspective. We explore whether posterior tempering can be replaced by a confidence-inducing prior distribution. First, we introduce a ‘DirClip’ prior that is practical to sample and nearly matches the performance of a cold posterior. Second, we introduce a ‘confidence prior’ that directly approximates a cold likelihood in the limit of decreasing temperature but cannot be easily sampled. Lastly, we provide several general insights into confidence-inducing priors, such as when they might diverge and how fine-tuning can mitigate numerical instability.

arxiv情報

著者 Martin Marek,Brooks Paige,Pavel Izmailov
発行日 2024-03-02 17:28:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク