要約
大規模なラベル付きデータセットが存在しない場合、機械学習分類器を評価することは依然として困難です。
ラベル付きデータは法外に高価であったり、入手が不可能な場合がありますが、ラベルなしデータは豊富にあります。
ここでは、ラベル付きデータとラベルなしデータの両方を使用して機械学習分類器を評価する方法である半教師ありモデル評価 (SSME) を紹介します。
SSME は、(i) 同じタスクに対して複数の分類子が存在することが多い、(ii) 連続分類子スコアがすべてのクラスで利用できることが多い、(iii) ラベルのないデータは多くの場合、はるかに大きいという事実を利用した最初の評価方法です。
ラベル付きデータよりも豊富です。
重要なアイデアは、半教師あり混合モデルを使用して、グラウンド トゥルース ラベルと分類子の予測の同時分布を推定することです。
次に、このモデルを使用して、分類子スコアとグラウンド トゥルース ラベル (精度や予想されるキャリブレーション誤差など) の関数であるメトリックを推定できます。
大規模なラベル付きデータセットの取得が非現実的であることが多い 4 つの領域 (1) ヘルスケア、(2) コンテンツモデレーション、(3) 分子特性予測、および (4) 画像アノテーションでの実験を紹介します。
私たちの結果は、SSME が競合手法よりも正確にパフォーマンスを推定し、ラベル付きデータのみを使用した場合と比較して誤差を 5.1 倍、次に優れた競合手法と比較して 2.4 倍削減できることを示しています。
SSME は、テスト分布のサブセット (特定の人口統計サブグループなど) にわたるパフォーマンスを評価するときや、言語モデルのパフォーマンスを評価するときの精度も向上します。
要約(オリジナル)
It remains difficult to evaluate machine learning classifiers in the absence of a large, labeled dataset. While labeled data can be prohibitively expensive or impossible to obtain, unlabeled data is plentiful. Here, we introduce Semi-Supervised Model Evaluation (SSME), a method that uses both labeled and unlabeled data to evaluate machine learning classifiers. SSME is the first evaluation method to take advantage of the fact that: (i) there are frequently multiple classifiers for the same task, (ii) continuous classifier scores are often available for all classes, and (iii) unlabeled data is often far more plentiful than labeled data. The key idea is to use a semi-supervised mixture model to estimate the joint distribution of ground truth labels and classifier predictions. We can then use this model to estimate any metric that is a function of classifier scores and ground truth labels (e.g., accuracy or expected calibration error). We present experiments in four domains where obtaining large labeled datasets is often impractical: (1) healthcare, (2) content moderation, (3) molecular property prediction, and (4) image annotation. Our results demonstrate that SSME estimates performance more accurately than do competing methods, reducing error by 5.1x relative to using labeled data alone and 2.4x relative to the next best competing method. SSME also improves accuracy when evaluating performance across subsets of the test distribution (e.g., specific demographic subgroups) and when evaluating the performance of language models.
arxiv情報
著者 | Divya Shanmugam,Shuvom Sadhuka,Manish Raghavan,John Guttag,Bonnie Berger,Emma Pierson |
発行日 | 2025-01-22 16:44:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google