Temperature Optimization for Bayesian Deep Learning

要約

寒冷後効果(CPE)は、ベイジアンディープラーニング(BDL)の現象であり、後部を寒い温度に抑えると、後部予測分布(PPD)の予測性能が改善されることがよくあります。
「CPE」という用語は、より低い温度が本質的に優れていることを示唆していますが、BDLコミュニティは、これが常にそうではないことをますます認識しています。
それにもかかわらず、グリッド検索を超える最適な温度を見つけるための体系的な方法は残っていません。
この作業では、データ駆動型のアプローチを提案して、テストログ予測密度を最大化し、温度をモデルパラメーターとして扱い、データから直接推定する温度を選択します。
私たちのメソッドは、回帰タスクと分類タスクの両方で、わずかなコストでグリッド検索と同等に機能することを経験的に実証します。
最後に、BDLと一般化されたベイズコミュニティの間のCPEの異なる視点を強調します。前者は主にPPDの予測性能を強調していますが、後者はモデルの誤りの下での事後の有用性を優先します。
これらの明確な目的は、さまざまな温度好みにつながります。

要約(オリジナル)

The Cold Posterior Effect (CPE) is a phenomenon in Bayesian Deep Learning (BDL), where tempering the posterior to a cold temperature often improves the predictive performance of the posterior predictive distribution (PPD). Although the term `CPE’ suggests colder temperatures are inherently better, the BDL community increasingly recognizes that this is not always the case. Despite this, there remains no systematic method for finding the optimal temperature beyond grid search. In this work, we propose a data-driven approach to select the temperature that maximizes test log-predictive density, treating the temperature as a model parameter and estimating it directly from the data. We empirically demonstrate that our method performs comparably to grid search, at a fraction of the cost, across both regression and classification tasks. Finally, we highlight the differing perspectives on CPE between the BDL and Generalized Bayes communities: while the former primarily emphasizes the predictive performance of the PPD, the latter prioritizes the utility of the posterior under model misspecification; these distinct objectives lead to different temperature preferences.

arxiv情報

著者 Kenyon Ng,Chris van der Heide,Liam Hodgkinson,Susan Wei
発行日 2025-06-11 16:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ME, stat.ML パーマリンク