When resampling/reweighting improves feature learning in imbalanced classification?: A toy-model study

要約

バイナリ分類の玩具モデルは、クラスの不均衡の存在下での機能学習パフォーマンスに対するクラスの再サンプリング/再航行効果を明確にすることを目的として研究されています。
分析では、入力寸法とのデータセットサイズの比率を有限に保ち、統計力学の非孤独なレプリカメソッドを採用している間、入力空間の高次元制限が取られます。
結果は、再サンプリング/再譲渡状況がない場合、Cao et al。
(2019);
Kang et al。
(2019)。
また、結果の鍵は、損失の対称性と問題設定であることも明らかにされています。
これに触発されて、マルチクラス設定で同じプロパティを示すさらに簡素化されたモデルを提案します。
これらは、クラスの再サンプリング/リワイト化が不均衡な分類に効果的になる時期を明確にします。

要約(オリジナル)

A toy model of binary classification is studied with the aim of clarifying the class-wise resampling/reweighting effect on the feature learning performance under the presence of class imbalance. In the analysis, a high-dimensional limit of the input space is taken while keeping the ratio of the dataset size against the input dimension finite and the non-rigorous replica method from statistical mechanics is employed. The result shows that there exists a case in which the no resampling/reweighting situation gives the best feature learning performance irrespectively of the choice of losses or classifiers, supporting recent findings in Cao et al. (2019); Kang et al. (2019). It is also revealed that the key of the result is the symmetry of the loss and the problem setting. Inspired by this, we propose a further simplified model exhibiting the same property in the multiclass setting. These clarify when the class-wise resampling/reweighting becomes effective in imbalanced classification.

arxiv情報

著者 Tomoyuki Obuchi,Toshiyuki Tanaka
発行日 2025-04-22 16:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.IT, cs.LG, math.IT, stat.ML パーマリンク