Is augmentation effective to improve prediction in imbalanced text datasets?



– 不均衡なデータセットは機械学習モデルにとって重大な課題であり、しばしばバイアスのある予測をもたらします。
– この問題に対処するため、データ拡張技術は自然言語処理(NLP)で広く使用されており、少数派のクラスの新しいサンプルを生成するために使用されています。
– しかし、本論文では、データ拡張が常に必要であるという一般的な前提に疑問を呈します。
– 代わりに、データ拡張なしで分類器のカットオフを調整することで、オーバーサンプリング技術と似た結果を得ることができると主張しています。
– 当社の研究は、この主張を支持するための理論的および実証的根拠を提供します。
– 当社の調査結果は、不均衡データを扱うための異なるアプローチの強みと限界を理解するのに役立ち、研究者や実践者が特定のタスクに使用する方法を選択するための情報を提供します。


Imbalanced datasets present a significant challenge for machine learning models, often leading to biased predictions. To address this issue, data augmentation techniques are widely used in natural language processing (NLP) to generate new samples for the minority class. However, in this paper, we challenge the common assumption that data augmentation is always necessary to improve predictions on imbalanced datasets. Instead, we argue that adjusting the classifier cutoffs without data augmentation can produce similar results to oversampling techniques. Our study provides theoretical and empirical evidence to support this claim. Our findings contribute to a better understanding of the strengths and limitations of different approaches to dealing with imbalanced data, and help researchers and practitioners make informed decisions about which methods to use for a given task.


著者 Gabriel O. Assunção,Rafael Izbicki,Marcos O. Prates
発行日 2023-04-20 13:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, stat.ML パーマリンク