ESD: Expected Squared Difference as a Tuning-Free Trainable Calibration Measure

要約

最近のニューラルネットワークは、予測を過信するあまり、較正が甘くなる傾向があることが研究で明らかになっています。従来は、訓練後にモデルの較正を行う後処理手法が用いられてきた。近年では、訓練可能な較正手段を訓練プロセスに直接組み込む方法が様々提案されています。しかし、これらの手法はいずれも内部のハイパーパラメータを組み込んでおり、これらのキャリブレーション目的の性能はこれらのハイパーパラメータのチューニングに依存し、ニューラルネットワークやデータセットのサイズが大きくなればなるほど計算コストが発生する。そこで、チューニングフリー(ハイパーパラメータフリー)の訓練可能なキャリブレーション目的損失であるExpected Squared Difference(ESD)を発表し、キャリブレーション誤差を2つの期待値の二乗差という観点から捉えます。いくつかのアーキテクチャ(CNN、Transformer)とデータセットでの大規模な実験により、(1)ESDを訓練に組み込むことで、内部ハイパーパラメータのチューニングを必要とせず、様々なバッチサイズ設定においてモデルのキャリブレーションが向上すること、(2)ESDは以前のアプローチと比較して最高のキャリブレーション結果をもたらすこと、(3)ESDでは内部ハイパーパラメータの不在により訓練中のキャリブレーションに必要な計算コストが劇的に改善することが示されます。コードは、https://github.com/hee-suk-yoon/ESD で公開されています。

要約(オリジナル)

Studies have shown that modern neural networks tend to be poorly calibrated due to over-confident predictions. Traditionally, post-processing methods have been used to calibrate the model after training. In recent years, various trainable calibration measures have been proposed to incorporate them directly into the training process. However, these methods all incorporate internal hyperparameters, and the performance of these calibration objectives relies on tuning these hyperparameters, incurring more computational costs as the size of neural networks and datasets become larger. As such, we present Expected Squared Difference (ESD), a tuning-free (i.e., hyperparameter-free) trainable calibration objective loss, where we view the calibration error from the perspective of the squared difference between the two expectations. With extensive experiments on several architectures (CNNs, Transformers) and datasets, we demonstrate that (1) incorporating ESD into the training improves model calibration in various batch size settings without the need for internal hyperparameter tuning, (2) ESD yields the best-calibrated results compared with previous approaches, and (3) ESD drastically improves the computational costs required for calibration during training due to the absence of internal hyperparameter. The code is publicly accessible at https://github.com/hee-suk-yoon/ESD.

arxiv情報

著者 Hee Suk Yoon,Joshua Tian Jin Tee,Eunseop Yoon,Sunjae Yoon,Gwangsu Kim,Yingzhen Li,Chang D. Yoo
発行日 2023-03-04 18:06:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク