要約
ディープ ニューラル ネットワークのキャリブレーションは現在、幅広い注目と研究を集めています。
キャリブレーションの誤りは通常、モデルの過信につながります。
一方、データのロングテール分布の条件下では、少数派カテゴリーと多数派カテゴリーのサンプルの信頼レベルが異なるため、誤校正の問題がより顕著になり、より深刻な過信が生じることになります。
この問題に対処するために、現在の研究では、温度スケーリング (TS) 法に基づいて、さまざまなカテゴリに対してさまざまな温度係数を設計しています。
ただし、少数クラスのまれなサンプルの場合、温度係数は一般化できず、トレーニング セットと検証セットの温度係数の間には大きな差があります。
この課題を解決するために、本論文では、異なるカテゴリの温度パラメータの多様性と、少数クラスの希少サンプルの温度パラメータの非一般化可能性を同時に考慮する、デュアルブランチ温度スケーリング校正モデル (Dual-TS) を提案します。
さらに、従来のキャリブレーション評価指標である例外キャリブレーション エラー (ECE) では、少数クラスの信頼性の低いサンプルに高い重みが与えられ、これがモデル キャリブレーションの不正確な評価につながることに気づきました。
したがって、新しいキャリブレーション評価指標として Equal Sample Bin Excepted Calibration Error (Esbin-ECE) も提案します。
実験を通じて、私たちのモデルが従来の ECE メトリクスと Esbin-ECE メトリクスの両方で最先端の結果をもたらすことを実証しました。
要約(オリジナル)
The calibration for deep neural networks is currently receiving widespread attention and research. Miscalibration usually leads to overconfidence of the model. While, under the condition of long-tailed distribution of data, the problem of miscalibration is more prominent due to the different confidence levels of samples in minority and majority categories, and it will result in more serious overconfidence. To address this problem, some current research have designed diverse temperature coefficients for different categories based on temperature scaling (TS) method. However, in the case of rare samples in minority classes, the temperature coefficient is not generalizable, and there is a large difference between the temperature coefficients of the training set and the validation set. To solve this challenge, this paper proposes a dual-branch temperature scaling calibration model (Dual-TS), which considers the diversities in temperature parameters of different categories and the non-generalizability of temperature parameters for rare samples in minority classes simultaneously. Moreover, we noticed that the traditional calibration evaluation metric, Excepted Calibration Error (ECE), gives a higher weight to low-confidence samples in the minority classes, which leads to inaccurate evaluation of model calibration. Therefore, we also propose Equal Sample Bin Excepted Calibration Error (Esbin-ECE) as a new calibration evaluation metric. Through experiments, we demonstrate that our model yields state-of-the-art in both traditional ECE and Esbin-ECE metrics.
arxiv情報
著者 | Jialin Guo,Zhenyu Wu,Zhiqiang Zhan,Yang Ji |
発行日 | 2023-08-16 13:40:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google