Calibration-Aware Bayesian Learning

要約

大規模言語モデルのような最新のシステムを含む深層学習モデルは、その判断の不確実性の信頼できない推定値を提供することがよく知られている。モデルの信頼度(キャリブレーションとも呼ばれる)の質を向上させるために、一般的なアプローチでは、学習損失にデータ依存またはデータ非依存の正則化項を追加することが必要となる。データ依存正則化項は、最近、従来のFrequentist学習の文脈で導入され、信頼度と精度の間の乖離を罰する。一方、データ非依存正則化項はベイズ学習の中核をなすもので、モデルのパラメータ空間における変分分布を事前密度に従うように強制する。前者はエピステミックな不確実性を定量化することができず、後者はモデルの誤仕様に大きく影響される。本論文では、両手法の限界を考慮し、ベイズ学習と同様に変分分布を最適化しながら、両方の正則化を適用する統合フレームワークを提案する(CA-BNNsと呼ばれる)。数値結果は、期待校正誤差(ECE)と信頼性ダイアグラムの観点から、提案手法の利点を検証するものである。

要約(オリジナル)

Deep learning models, including modern systems like large language models, are well known to offer unreliable estimates of the uncertainty of their decisions. In order to improve the quality of the confidence levels, also known as calibration, of a model, common approaches entail the addition of either data-dependent or data-independent regularization terms to the training loss. Data-dependent regularizers have been recently introduced in the context of conventional frequentist learning to penalize deviations between confidence and accuracy. In contrast, data-independent regularizers are at the core of Bayesian learning, enforcing adherence of the variational distribution in the model parameter space to a prior density. The former approach is unable to quantify epistemic uncertainty, while the latter is severely affected by model misspecification. In light of the limitations of both methods, this paper proposes an integrated framework, referred to as calibration-aware Bayesian neural networks (CA-BNNs), that applies both regularizers while optimizing over a variational distribution as in Bayesian learning. Numerical results validate the advantages of the proposed approach in terms of expected calibration error (ECE) and reliability diagrams.

arxiv情報

著者 Jiayi Huang,Sangwoo Park,Osvaldo Simeone
発行日 2023-05-12 14:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.SP パーマリンク