Balancing the Scales: A Theoretical and Algorithmic Framework for Learning from Imbalanced Data

要約

クラスの不均衡は、特に長期にわたる分布のマルチクラスの問題において、機械学習における大きな課題のままです。
データの再サンプリング、コストに敏感な手法、ロジスティック損失の変更などの既存の方法は、一般的でしばしば効果的ですが、強固な理論的基礎を欠いています。
例として、コストに敏感な方法はベイズが一貫していないことを示します。
このペーパーでは、不均衡な分類における一般化を分析するための新しい理論的枠組みを紹介します。
バイナリとマルチクラスの両方の設定の新しいクラスに均衡したマージン損失関数を提案し、その強い$ h $の無意味性を証明し、経験的損失とクラスに敏感なラセマーの複雑さの新しい概念に基づいて、対応する学習保証を導き出します。
これらの理論的結果を活用して、信頼マージンを組み込み、さまざまな仮説セットに適用できる新規および一般学習アルゴリズムであるImmax(不均衡なマージンの最大化)を考案します。
私たちの焦点は理論的ですが、既存のベースラインと比較してアルゴリズムの有効性を実証する広範な経験的結果も提示します。

要約(オリジナル)

Class imbalance remains a major challenge in machine learning, especially in multi-class problems with long-tailed distributions. Existing methods, such as data resampling, cost-sensitive techniques, and logistic loss modifications, though popular and often effective, lack solid theoretical foundations. As an example, we demonstrate that cost-sensitive methods are not Bayes consistent. This paper introduces a novel theoretical framework for analyzing generalization in imbalanced classification. We propose a new class-imbalanced margin loss function for both binary and multi-class settings, prove its strong $H$-consistency, and derive corresponding learning guarantees based on empirical loss and a new notion of class-sensitive Rademacher complexity. Leveraging these theoretical results, we devise novel and general learning algorithms, IMMAX (Imbalanced Margin Maximization), which incorporate confidence margins and are applicable to various hypothesis sets. While our focus is theoretical, we also present extensive empirical results demonstrating the effectiveness of our algorithms compared to existing baselines.

arxiv情報

著者 Corinna Cortes,Anqi Mao,Mehryar Mohri,Yutao Zhong
発行日 2025-02-14 18:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク