要約
一方のクラスのサンプルサイズが無限に増加し、他方のクラスのサンプルサイズは固定されたままである、無限不均衡極限における二値分類のための線形判別関数の挙動を研究する。分類器の係数は、重み関数で指定された経験的損失を最小化する。我々は、ロジスティック回帰に関する先行研究を拡張し、幅広いクラスの重み関数について、切片は発散するが、残りの係数ベクトルは無限の不均衡の下で有限のほぼ確実な極限を持つことを示す。この限界は重み関数の左尾成長率に依存し、亜指数関数と指数関数の2つのケースに区別される。限界係数ベクトルは、ある最悪の選択肢に対して最適化するという意味で、頑健性や保守性の特性を反映している。亜指数的な場合、限界は少数クラスのアップサンプリング分布の暗黙の選択と等価である。これらの考え方を信用リスクの設定に適用し、特に高感度・高特性領域における性能に重点を置いている。
要約(オリジナル)
We study the behavior of linear discriminant functions for binary classification in the infinite-imbalance limit, where the sample size of one class grows without bound while the sample size of the other remains fixed. The coefficients of the classifier minimize an empirical loss specified through a weight function. We show that for a broad class of weight functions, the intercept diverges but the rest of the coefficient vector has a finite almost sure limit under infinite imbalance, extending prior work on logistic regression. The limit depends on the left-tail growth rate of the weight function, for which we distinguish two cases: subexponential and exponential. The limiting coefficient vectors reflect robustness or conservatism properties in the sense that they optimize against certain worst-case alternatives. In the subexponential case, the limit is equivalent to an implicit choice of upsampling distribution for the minority class. We apply these ideas in a credit risk setting, with particular emphasis on performance in the high-sensitivity and high-specificity regions.
arxiv情報
著者 | Paul Glasserman,Mike Li |
発行日 | 2023-05-12 17:06:27+00:00 |
arxivサイト | arxiv_id(pdf) |