Sample-dependent Adaptive Temperature Scaling for Improved Calibration

要約

ニューラルネットワークは、予測に高い信頼性を持って間違っている可能性があり、キャリブレーションが不十分になる可能性があることは今ではよく知られています。
これを補正するための最も一般的な事後アプローチは、温度スケーリングを実行することです。これは、ロジットを固定値でスケーリングすることにより、入力に対する予測の信頼性を調整します。
このアプローチは通常、テストデータセット全体の平均キャリブレーションを改善しますが、この改善は通常、特定の入力の分類が正しいか正しくないかに関係なく、予測の個々の信頼性を低下させます。
この洞察に基づいて、さまざまなサンプルが量を変えることでキャリブレーションエラーに寄与するという観察に基づいて、信頼度を上げる必要があるものと減らす必要があるものがあります。
したがって、入力ごとに異なる温度値を予測することを提案し、信頼性と精度の不一致をより細かい粒度で調整できるようにします。
さらに、OOD検出の改善された結果を観察し、データポイントの硬度の概念を抽出することもできます。
私たちの方法は事後的に適用されるため、計算時間はごくわずかで、メモリフットプリントはごくわずかであり、既成の事前トレーニング済み分類器に適用されます。
CIFAR10 / 100およびTiny-ImageNetデータセットを使用してResNet50およびWideResNet28-10アーキテクチャでメソッドをテストし、データポイントごとの温度を生成することは、テストセット全体で予想されるキャリブレーションエラーにも有益であることを示しています。
コードはhttps://github.com/thwjoy/adatsで入手できます。

要約(オリジナル)

It is now well known that neural networks can be wrong with high confidence in their predictions, leading to poor calibration. The most common post-hoc approach to compensate for this is to perform temperature scaling, which adjusts the confidences of the predictions on any input by scaling the logits by a fixed value. Whilst this approach typically improves the average calibration across the whole test dataset, this improvement typically reduces the individual confidences of the predictions irrespective of whether the classification of a given input is correct or incorrect. With this insight, we base our method on the observation that different samples contribute to the calibration error by varying amounts, with some needing to increase their confidence and others needing to decrease it. Therefore, for each input, we propose to predict a different temperature value, allowing us to adjust the mismatch between confidence and accuracy at a finer granularity. Furthermore, we observe improved results on OOD detection and can also extract a notion of hardness for the data-points. Our method is applied post-hoc, consequently using very little computation time and with a negligible memory footprint and is applied to off-the-shelf pre-trained classifiers. We test our method on the ResNet50 and WideResNet28-10 architectures using the CIFAR10/100 and Tiny-ImageNet datasets, showing that producing per-data-point temperatures is beneficial also for the expected calibration error across the whole test set. Code is available at: https://github.com/thwjoy/adats.

arxiv情報

著者 Tom Joy,Francesco Pinto,Ser-Nam Lim,Philip H. S. Torr,Puneet K. Dokania
発行日 2022-07-13 14:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク