Set Learning for Accurate and Calibrated Models

要約

モデルの過信と不十分なキャリブレーションは機械学習では一般的であり、標準的な経験的リスク最小化を適用する場合に説明するのが困難です。
この研究では、これらの問題を軽減するために、odd-$k$-out learning (OKO) と呼ばれる新しい方法を提案します。これは、単一の例ではなくセットのクロスエントロピー誤差を最小限に抑えます。
これにより、モデルは当然のことながら、データ例全体の相関関係を捉えることができ、特に限られたトレーニング データやクラスの不均衡な状況において、精度とキャリブレーションの両方を向上させることができます。
おそらく驚くべきことに、ハード ラベルを使用してトレーニングし、温度スケーリングなどの追加のキャリブレーション パラメーター調整を省略した場合でも、OKO は多くの場合、より良いキャリブレーションを実現します。
私たちはこれを広範な実験分析で実証し、発見を解釈するための数学的理論を提供します。
OKO は、多くの設定に簡単に適応できる一般的なフレームワークであり、実行時のオーバーヘッドやアーキテクチャを大幅に変更することなく、トレーニングされたモデルを推論時に単一の例に適用できることを強調します。

要約(オリジナル)

Model overconfidence and poor calibration are common in machine learning and difficult to account for when applying standard empirical risk minimization. In this work, we propose a novel method to alleviate these problems that we call odd-$k$-out learning (OKO), which minimizes the cross-entropy error for sets rather than for single examples. This naturally allows the model to capture correlations across data examples and achieves both better accuracy and calibration, especially in limited training data and class-imbalanced regimes. Perhaps surprisingly, OKO often yields better calibration even when training with hard labels and dropping any additional calibration parameter tuning, such as temperature scaling. We demonstrate this in extensive experimental analyses and provide a mathematical theory to interpret our findings. We emphasize that OKO is a general framework that can be easily adapted to many settings and a trained model can be applied to single examples at inference time, without significant run-time overhead or architecture changes.

arxiv情報

著者 Lukas Muttenthaler,Robert A. Vandermeulen,Qiuyi Zhang,Thomas Unterthiner,Klaus-Robert Müller
発行日 2024-02-12 13:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IT, cs.LG, math.IT パーマリンク