Estimating Model Performance under Domain Shifts with Class-Specific Confidence Scores

要約

機械学習モデルは通常、トレーニング設定とは異なるテスト設定で展開され、ドメインシフトのためにモデルのパフォーマンスが低下する可能性があります。
事前にトレーニングされたモデルが特定の展開設定(特定の診療所など)のデータで達成するパフォーマンスを見積もることができれば、モデルが安全に展開できるかどうか、または特定のデータでパフォーマンスが許容できないほど低下するかどうかを判断できます。
既存のアプローチは、展開のドメインからのラベルなしのテストデータに対して行われた予測の信頼性に基づいてこれを推定します。
信頼度の調整に使用される方法は、クラスの不均衡によって引き起こされるバイアスを考慮していないため、既存の方法はクラスの不均衡を示すデータと格闘していることがわかります。その結果、クラスごとの精度を推定できません。
ここでは、不均衡なデータセットのパフォーマンス推定のフレームワーク内でクラスごとのキャリブレーションを紹介します。
具体的には、温度スケーリング(TS)、信頼差(DoC)、平均しきい値信頼度(ATC)など、最先端の信頼度ベースのモデル評価方法のクラス固有の変更を導き出します。
また、画像セグメンテーションにおけるダイス類似係数(DSC)を推定する方法を拡張します。
4つのタスクで実験を行い、提案された変更により、不均衡なデータセットの推定精度が一貫して向上することがわかりました。
私たちの方法は、以前の方法と比較して、自然領域シフトの下での分類の精度推定を18 \%改善し、セグメンテーションタスクの推定精度を2倍にします。

要約(オリジナル)

Machine learning models are typically deployed in a test setting that differs from the training setting, potentially leading to decreased model performance because of domain shift. If we could estimate the performance that a pre-trained model would achieve on data from a specific deployment setting, for example a certain clinic, we could judge whether the model could safely be deployed or if its performance degrades unacceptably on the specific data. Existing approaches estimate this based on the confidence of predictions made on unlabeled test data from the deployment’s domain. We find existing methods struggle with data that present class imbalance, because the methods used to calibrate confidence do not account for bias induced by class imbalance, consequently failing to estimate class-wise accuracy. Here, we introduce class-wise calibration within the framework of performance estimation for imbalanced datasets. Specifically, we derive class-specific modifications of state-of-the-art confidence-based model evaluation methods including temperature scaling (TS), difference of confidences (DoC), and average thresholded confidence (ATC). We also extend the methods to estimate Dice similarity coefficient (DSC) in image segmentation. We conduct experiments on four tasks and find the proposed modifications consistently improve the estimation accuracy for imbalanced datasets. Our methods improve accuracy estimation by 18\% in classification under natural domain shifts, and double the estimation accuracy on segmentation tasks, when compared with prior methods.

arxiv情報

著者 Zeju Li,Konstantinos Kamnitsas,Mobarakol Islam,Chen Chen,Ben Glocker
発行日 2022-07-20 15:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク