On the Limitations of Temperature Scaling for Distributions with Overlaps

要約

ディープ ニューラル ネットワークの優れた一般化機能にもかかわらず、ネットワークが間違っている場合に自信過剰になることが繰り返し示されています。
この問題の修正はモデル キャリブレーションとして知られており、その結果、修正されたトレーニング スキームや温度スケーリングなどのトレーニング後のキャリブレーション手順の形で多くの注目を集めています。
温度スケーリングはその単純さから頻繁に使用されますが、多くの場合、修正されたトレーニング スキームの方がパフォーマンスが優れています。
この研究では、温度スケーリングのパフォーマンスに関する特定のボトルネックを特定します。
クラスのサポートが重複する一般的な分布セットに対する経験的リスク最小化ツールの場合、温度スケーリングのパフォーマンスはクラス間の重複の量とともに低下し、多数のサポートがある場合には漸近的にランダムと同等になることを示します。
クラス。
一方で、Mixup データ拡張手法によって引き起こされる経験的リスクの修正された形式を最適化すると、実際にかなり良好なキャリブレーション パフォーマンスが得られることを証明し、状況によってはトレーニング時のキャリブレーションが必要になる可能性があることを示しています。
また、ラベル ノイズの形で導入されたクラスの重複を伴​​う画像分類ベンチマークで、Mixup が経験的リスク最小化 (複数のキャリブレーション メトリックに関して) を大幅に上回ることを示すことで、理論的結果が実践を反映していることを検証します。

要約(オリジナル)

Despite the impressive generalization capabilities of deep neural networks, they have been repeatedly shown to be overconfident when they are wrong. Fixing this issue is known as model calibration, and has consequently received much attention in the form of modified training schemes and post-training calibration procedures such as temperature scaling. While temperature scaling is frequently used because of its simplicity, it is often outperformed by modified training schemes. In this work, we identify a specific bottleneck for the performance of temperature scaling. We show that for empirical risk minimizers for a general set of distributions in which the supports of classes have overlaps, the performance of temperature scaling degrades with the amount of overlap between classes, and asymptotically becomes no better than random when there are a large number of classes. On the other hand, we prove that optimizing a modified form of the empirical risk induced by the Mixup data augmentation technique can in fact lead to reasonably good calibration performance, showing that training-time calibration may be necessary in some situations. We also verify that our theoretical results reflect practice by showing that Mixup significantly outperforms empirical risk minimization (with respect to multiple calibration metrics) on image classification benchmarks with class overlaps introduced in the form of label noise.

arxiv情報

著者 Muthu Chidambaram,Rong Ge
発行日 2023-09-29 16:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク