Identifying Key Challenges of Hardness-Based Resampling

要約

クラス間のパフォーマンスのギャップは、機械学習における永続的な課題のままであり、多くの場合、クラスの硬度の変動に起因します。
クラスの硬度を定量化する1つの方法は、サンプルの複雑さ、つまり特定のクラスを効果的に学習するために必要なサンプルの最小数です。
サンプルの複雑さ理論は、クラスの硬度は一般化に必要なデータの量の違いによって駆動されることを示唆しています。
つまり、より難しいクラスは、一般化を実現するために大幅に多くのサンプルを必要とします。
したがって、硬度ベースの再サンプリングは、これらのパフォーマンスの格差を軽減するための有望なアプローチです。
データ緩和設定では、再サンプリングが広範囲に研究されていますが、バランスの取れたデータセットへの影響は未調査のままです。
これは、データの不均衡または硬度の不均衡に対処するため、再サンプリングが効果的であるかどうかの基本的な疑問を提起します。
クラスの不均衡をバランスの取れたデータセットに導入し、パフォーマンスの格差への影響を評価することにより、この質問に対処し始めます。
ハードクラスをオーバーサンプリングし、簡単なクラスをサンプリングして、ハードクラスをサンプルの複雑さの要件に近づけ、公平のために一定のデータセットサイズを維持します。
マージン(AUM)硬度推定器の下の領域を使用してクラスレベルの硬度を推定し、それを活用して再サンプリング比を計算します。
これらの比率を使用して、よく知られているCIFAR-10およびCIFAR-100データセットで硬度ベースの再サンプリングを実行します。
理論的な期待に反して、我々の結果は、硬度ベースの再サンプリングがクラスごとのパフォーマンスの格差に有意に影響しないことを示しています。
この矛盾を説明するために、硬度ベースの不均衡に固有の重要な課題を特定するために詳細な分析を実施し、従来のデータベースの不均衡と区別します。
私たちの洞察は、理論的なサンプルの複雑さの期待が実際のパフォーマンスの向上に変換できない理由を説明するのに役立ち、将来の研究のためのガイドラインを提供します。

要約(オリジナル)

Performance gap across classes remains a persistent challenge in machine learning, often attributed to variations in class hardness. One way to quantify class hardness is through sample complexity – the minimum number of samples required to effectively learn a given class. Sample complexity theory suggests that class hardness is driven by differences in the amount of data required for generalization. That is, harder classes need substantially more samples to achieve generalization. Therefore, hardness-based resampling is a promising approach to mitigate these performance disparities. While resampling has been studied extensively in data-imbalanced settings, its impact on balanced datasets remains unexplored. This raises the fundamental question whether resampling is effective because it addresses data imbalance or hardness imbalance. We begin addressing this question by introducing class imbalance into balanced datasets and evaluate its effect on performance disparities. We oversample hard classes and undersample easy classes to bring hard classes closer to their sample complexity requirements while maintaining a constant dataset size for fairness. We estimate class-level hardness using the Area Under the Margin (AUM) hardness estimator and leverage it to compute resampling ratios. Using these ratios, we perform hardness-based resampling on the well-known CIFAR-10 and CIFAR-100 datasets. Contrary to theoretical expectations, our results show that hardness-based resampling does not meaningfully affect class-wise performance disparities. To explain this discrepancy, we conduct detailed analyses to identify key challenges unique to hardness-based imbalance, distinguishing it from traditional data-based imbalance. Our insights help explain why theoretical sample complexity expectations fail to translate into practical performance gains and we provide guidelines for future research.

arxiv情報

著者 Pawel Pukowski,Venet Osmani
発行日 2025-04-09 16:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク