From SMOTE to Mixup for Deep Imbalanced Classification

要約

不均衡なデータが与えられると、少数クラスの一般化が不十分なため、深層学習を使用して優れた分類器をトレーニングするのは困難です。
従来、この一般化を改善するために、データ拡張のためのよく知られた合成少数派オーバーサンプリング手法 (SMOTE)、不均衡学習のためのデータ マイニング アプローチが使用されてきました。
ただし、SMOTE がディープラーニングにもメリットをもたらすかどうかは不明です。
この研究では、元の SMOTE が深層学習に不十分な理由を研究し、ソフト ラベルを使用して SMOTE を強化します。
結果として得られるソフト SMOTE を最新のデータ拡張技術である Mixup に接続すると、従来のデータ拡張技術と最新のデータ拡張技術を同じ傘下に置く統合フレームワークが実現します。
このフレームワーク内での慎重な研究により、Mixup は多数派クラスと少数派クラスの間で不均一なマージンを暗黙的に達成することで一般化を向上させることが示されています。
次に、不均等なマージンをより明確に実現する、新しいマージンを意識したミックスアップ手法を提案します。
広範な実験結果は、私たちが提案する手法が、極端に不均衡なデータに対して優れたパフォーマンスを達成しながら、深い不均衡な分類に対して最先端のパフォーマンスをもたらすことを示しています。
コードは、この方向での将来の研究を促進するために、開発したパッケージ https://github.com/ntuclab/imbalance-DL でオープンソース化されています。

要約(オリジナル)

Given imbalanced data, it is hard to train a good classifier using deep learning because of the poor generalization of minority classes. Traditionally, the well-known synthetic minority oversampling technique (SMOTE) for data augmentation, a data mining approach for imbalanced learning, has been used to improve this generalization. However, it is unclear whether SMOTE also benefits deep learning. In this work, we study why the original SMOTE is insufficient for deep learning, and enhance SMOTE using soft labels. Connecting the resulting soft SMOTE with Mixup, a modern data augmentation technique, leads to a unified framework that puts traditional and modern data augmentation techniques under the same umbrella. A careful study within this framework shows that Mixup improves generalization by implicitly achieving uneven margins between majority and minority classes. We then propose a novel margin-aware Mixup technique that more explicitly achieves uneven margins. Extensive experimental results demonstrate that our proposed technique yields state-of-the-art performance on deep imbalanced classification while achieving superior performance on extremely imbalanced data. The code is open-sourced in our developed package https://github.com/ntucllab/imbalanced-DL to foster future research in this direction.

arxiv情報

著者 Wei-Chao Cheng,Tan-Ha Mai,Hsuan-Tien Lin
発行日 2023-08-29 17:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク