A Closer Look at AUROC and AUPRC under Class Imbalance

要約

機械学習 (ML) では、クラスの不均衡を伴うバイナリ分類タスクでは、適合率-再現率曲線下面積 (AUPRC) が、受信者動作特性下面積 (AUROC) よりも優れたモデル比較のメトリックである、という格言が広く普及しています。
この論文は、AUROC と AUPRC が確率論的に簡潔に関連付けられることを示す、新しい数学的分析を通じてこの概念に挑戦します。
私たちは、一般的な考えに反して、AUPRC はクラスの不均衡の場合に優れているわけではなく、より頻繁に陽性ラベルが付けられた部分母集団におけるモデルの改善を不当に支持する傾向を考えると、有害な指標である可能性さえあることを示します。
この偏りにより、アルゴリズムの不一致が意図せず増大する可能性があります。
これらの洞察に基づいて、既存の ML 文献の徹底的なレビューが実施され、大規模な言語モデルを利用して arXiv の 150 万件を超える論文が分析されました。
私たちの調査は、主張される AUPRC の優位性の蔓延と実証に焦点を当てました。
この結果は、経験的裏付けにおける重大な欠陥と、AUPRC の想定される利点の広範な受け入れを促進する誤った帰属の傾向を明らかにしました。
私たちの調査結果は、メトリクスの動作を理解する上での大幅な技術的進歩と、ML コミュニティにおけるチェックされていない仮定に対する厳しい警告という二重の貢献を表しています。
すべての実験は https://github.com/mmcdermott/AUC_is_all_you_need からアクセスできます。

要約(オリジナル)

In machine learning (ML), a widespread adage is that the area under the precision-recall curve (AUPRC) is a superior metric for model comparison to the area under the receiver operating characteristic (AUROC) for binary classification tasks with class imbalance. This paper challenges this notion through novel mathematical analysis, illustrating that AUROC and AUPRC can be concisely related in probabilistic terms. We demonstrate that AUPRC, contrary to popular belief, is not superior in cases of class imbalance and might even be a harmful metric, given its inclination to unduly favor model improvements in subpopulations with more frequent positive labels. This bias can inadvertently heighten algorithmic disparities. Prompted by these insights, a thorough review of existing ML literature was conducted, utilizing large language models to analyze over 1.5 million papers from arXiv. Our investigation focused on the prevalence and substantiation of the purported AUPRC superiority. The results expose a significant deficit in empirical backing and a trend of misattributions that have fuelled the widespread acceptance of AUPRC’s supposed advantages. Our findings represent a dual contribution: a significant technical advancement in understanding metric behaviors and a stark warning about unchecked assumptions in the ML community. All experiments are accessible at https://github.com/mmcdermott/AUC_is_all_you_need.

arxiv情報

著者 Matthew B. A. McDermott,Lasse Hyldig Hansen,Haoran Zhang,Giovanni Angelotti,Jack Gallifant
発行日 2024-01-11 18:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク