要約
モデルの過信と不十分なキャリブレーションは機械学習では一般的であり、標準的な経験的リスク最小化を適用する場合に説明するのが困難です。
この研究では、これらの問題を軽減するために、odd-$k$-out learning (OKO) と呼ばれる新しい方法を提案します。これは、単一の例ではなくセットのクロスエントロピー誤差を最小限に抑えます。
これにより、モデルは当然のことながら、データ例全体の相関関係を捉えることができ、特に限られたトレーニング データやクラスの不均衡な状況において、精度とキャリブレーションの両方を向上させることができます。
おそらく驚くべきことに、ハード ラベルを使用してトレーニングし、温度スケーリングなどの追加のキャリブレーション パラメーター調整を省略した場合でも、OKO は多くの場合、より良いキャリブレーションを実現します。
私たちは理論的根拠を提供し、OKO が自然により優れたキャリブレーションをもたらすことを確立し、理論的発見を裏付ける広範な実験分析を提供します。
OKO は多くの設定に簡単に適応できる一般的なフレームワークであり、実行時に大きなオーバーヘッドやアーキテクチャの変更を導入することなく、トレーニングされたモデルを推論時に単一の例に適用できることを強調します。
要約(オリジナル)
Model overconfidence and poor calibration are common in machine learning and difficult to account for when applying standard empirical risk minimization. In this work, we propose a novel method to alleviate these problems that we call odd-$k$-out learning (OKO), which minimizes the cross-entropy error for sets rather than for single examples. This naturally allows the model to capture correlations across data examples and achieves both better accuracy and calibration, especially in limited training data and class-imbalanced regimes. Perhaps surprisingly, OKO often yields better calibration even when training with hard labels and dropping any additional calibration parameter tuning, such as temperature scaling. We provide theoretical justification, establishing that OKO naturally yields better calibration, and provide extensive experimental analyses that corroborate our theoretical findings. We emphasize that OKO is a general framework that can be easily adapted to many settings and the trained model can be applied to single examples at inference time, without introducing significant run-time overhead or architecture changes.
arxiv情報
著者 | Lukas Muttenthaler,Robert A. Vandermeulen,Qiuyi Zhang,Thomas Unterthiner,Klaus-Robert Müller |
発行日 | 2023-07-10 10:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google