Optimal Downsampling for Imbalanced Classification with Generalized Linear Models

要約

ダウンサンプリングまたはアンダーサンプリングは、大規模で非常に不均衡な分類モデルのコンテキストで利用される手法です。
一般化線形モデル (GLM) を使用して、不均衡な分類に最適なダウンサンプリングを研究します。
我々は、擬似最尤推定量を提案し、サンプルサイズがますます大きくなるにつれて母集団の不均衡がますます大きくなるという状況において、その漸近正規性を研究します。
導入した推定器については理論上の保証を行っております。
さらに、統計的精度と計算効率のバランスをとる基準を使用して、最適なダウンサンプリング レートを計算します。
合成データと経験的データの両方に対して実施された数値実験は、理論的結果をさらに検証し、導入された推定器が一般に利用可能な代替推定器よりも優れていることを実証しました。

要約(オリジナル)

Downsampling or under-sampling is a technique that is utilized in the context of large and highly imbalanced classification models. We study optimal downsampling for imbalanced classification using generalized linear models (GLMs). We propose a pseudo maximum likelihood estimator and study its asymptotic normality in the context of increasingly imbalanced populations relative to an increasingly large sample size. We provide theoretical guarantees for the introduced estimator. Additionally, we compute the optimal downsampling rate using a criterion that balances statistical accuracy and computational efficiency. Our numerical experiments, conducted on both synthetic and empirical data, further validate our theoretical results, and demonstrate that the introduced estimator outperforms commonly available alternatives.

arxiv情報

著者 Yan Chen,Jose Blanchet,Krzysztof Dembczynski,Laura Fee Nern,Aaron Flores
発行日 2024-10-11 17:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク