Sexism Detection on a Data Diet


これに応じて、自然言語処理と深層学習に基づいたアプローチを使用して、有害なテキスト コンテンツを特定することを目的とした自動ツールの作成も大幅に進歩しています。
この研究では、モデルをトレーニングし、性差別検出の場合に適用される枝刈り戦略を設計する際に、影響スコアを活用してデータ ポイントの重要性を推定する方法を示します。
3 つのドメイン外データセットでさまざまな枝刈り戦略を使用して枝刈りされたデータでトレーニングされたモデルのパフォーマンスを評価したところ、他の作業に従って、インスタンスの大部分を大幅なパフォーマンスの低下なしに削除できることがわかりました。


There is an increase in the proliferation of online hate commensurate with the rise in the usage of social media. In response, there is also a significant advancement in the creation of automated tools aimed at identifying harmful text content using approaches grounded in Natural Language Processing and Deep Learning. Although it is known that training Deep Learning models require a substantial amount of annotated data, recent line of work suggests that models trained on specific subsets of the data still retain performance comparable to the model that was trained on the full dataset. In this work, we show how we can leverage influence scores to estimate the importance of a data point while training a model and designing a pruning strategy applied to the case of sexism detection. We evaluate the model performance trained on data pruned with different pruning strategies on three out-of-domain datasets and find, that in accordance with other work a large fraction of instances can be removed without significant performance drop. However, we also discover that the strategies for pruning data, previously successful in Natural Language Inference tasks, do not readily apply to the detection of harmful content and instead amplify the already prevalent class imbalance even more, leading in the worst-case to a complete absence of the hateful class.


著者 Rabiraj Bandyopadhyay,Dennis Assenmacher,Jose M. Alonso Moral,Claudia Wagner
発行日 2024-06-07 12:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク