Learning Confidence Bounds for Classification with Imbalanced Data

要約

クラスの不均衡は、従来のアプローチでは偏ったモデルや信頼性の低い予測につながることが多い分類タスクにおいて重大な課題を引き起こします。
この問題に対処するために、アンダーサンプリングおよびオーバーサンプリング技術が一般的に使用されてきましたが、それぞれ情報の損失や追加のバイアスなど、単純なアプローチに起因する固有の制限があります。
この論文では、学習理論と集中力の不平等を活用して、従来のソリューションの欠点を克服する新しいフレームワークを提案します。
私たちは、学習プロセスに直接埋め込む信頼限界によって捉えられる、クラスに依存した方法での不確実性を理解することに焦点を当てます。
クラス依存の推定を組み込むことにより、私たちの方法は、異なるクラス間のさまざまな程度の不均衡に効果的に適応でき、その結果、より堅牢で信頼性の高い分類結果が得られます。
私たちは、フレームワークが分類タスクで不均衡なデータを処理するための有望な方向性をどのように提供し、より正確で信頼できるモデルを構築するための貴重なツールを実践者に提供するかを実証的に示します。

要約(オリジナル)

Class imbalance poses a significant challenge in classification tasks, where traditional approaches often lead to biased models and unreliable predictions. Undersampling and oversampling techniques have been commonly employed to address this issue, yet they suffer from inherent limitations stemming from their simplistic approach such as loss of information and additional biases respectively. In this paper, we propose a novel framework that leverages learning theory and concentration inequalities to overcome the shortcomings of traditional solutions. We focus on understanding the uncertainty in a class-dependent manner, as captured by confidence bounds that we directly embed into the learning process. By incorporating class-dependent estimates, our method can effectively adapt to the varying degrees of imbalance across different classes, resulting in more robust and reliable classification outcomes. We empirically show how our framework provides a promising direction for handling imbalanced data in classification tasks, offering practitioners a valuable tool for building more accurate and trustworthy models.

arxiv情報

著者 Matt Clifford,Jonathan Erskine,Alexander Hepburn,Raúl Santos-Rodríguez,Dario Garcia-Garcia
発行日 2024-07-16 16:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク