A Survey of Methods for Addressing Class Imbalance in Deep-Learning Based Natural Language Processing

要約

多くの自然言語処理 (NLP) タスクは、自然界ではバランスが取れていません。これは、一部のターゲット カテゴリが他のカテゴリよりもはるかに頻繁に現実世界で発生するためです。
このようなシナリオでは、現在の NLP モデルは、頻度の低いクラスではパフォーマンスが低下する傾向があります。
NLP でクラスの不均衡に対処することは活発な研究トピックですが、特定のタスクや不均衡のシナリオに対する適切なアプローチを見つけることは困難です。
この調査は、深層学習ベースの NLP におけるクラスの不均衡に関する最初の概要であり、不均衡なデータを扱う NLP の研究者と実践者にガイダンスを提供します。
最初に、さまざまなタイプの制御された実際のクラスの不均衡について説明します。
私たちの調査では、クラスの不均衡な NLP タスクに対して明示的に提案されたアプローチ、またはコンピューター ビジョン コミュニティに端を発し、評価されたアプローチを対象としています。
サンプリング、データ拡張、損失関数の選択、段階的学習、またはモデル設計に基づいているかどうかによって方法を整理します。
最後に、マルチラベル シナリオの処理などの未解決の問題について議論し、この問題をコミュニティとして前進させるために体系的なベンチマークとレポートを提案します。

要約(オリジナル)

Many natural language processing (NLP) tasks are naturally imbalanced, as some target categories occur much more frequently than others in the real world. In such scenarios, current NLP models still tend to perform poorly on less frequent classes. Addressing class imbalance in NLP is an active research topic, yet, finding a good approach for a particular task and imbalance scenario is difficult. With this survey, the first overview on class imbalance in deep-learning based NLP, we provide guidance for NLP researchers and practitioners dealing with imbalanced data. We first discuss various types of controlled and real-world class imbalance. Our survey then covers approaches that have been explicitly proposed for class-imbalanced NLP tasks or, originating in the computer vision community, have been evaluated on them. We organize the methods by whether they are based on sampling, data augmentation, choice of loss function, staged learning, or model design. Finally, we discuss open problems such as dealing with multi-label scenarios, and propose systematic benchmarking and reporting in order to move forward on this problem as a community.

arxiv情報

著者 Sophie Henning,William Beluch,Alexander Fraser,Annemarie Friedrich
発行日 2023-02-22 10:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク