NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and Semi-Supervised Learning Techniques on Text Classification Performance on an Imbalanced Dataset

要約

【タイトル】
SemEval-2023 タスク 10 における NLP-LTU のデータ拡張と半教師あり学習テクニックのテキスト分類の性能への影響

【要約】
・SemEval23のタスク10(ソーシャルメディア上のオンライン性差別を検出・分類する)について、データ拡張と半教師あり学習を用いた、Transformerモデル(BERTweet、RoBERTa、DeBERTaのアンサンブルモデル)による解決策を提案。
・クラスの不均衡問題を解決するためにデータ拡張と半教師あり学習を使用し、実験を通じて、これらの戦略がパイプラインの性能に与える影響を分析。
・半教師あり学習では、多くのラベルなしのドメインに関連するデータがあれば、特定のモデルの性能を向上させることができる。
・提案された方法はF1スコア0.8613を達成し、競技会では10位にランクされた。
・提案された方法のソースコードはGithubで入手可能。

【要点】
・SemEval23タスク10の解決策として、オンラインでの性差別を検出・分類するためのTransformerモデルを提案
・クラスの不均衡問題を解決するため、データ拡張(バックトランスレーション)と半教師あり学習を取り入れた
・データ拡張では、全体または未出現クラスのみにバックトランスレーションを使用した
・半教師あり学習では、ラベルが付与されていない大量のドメイン関連データを使用して、特定のモデルのパフォーマンスを向上させた
・提案された手法では、Sub-taskAにおいてF1スコア0.8613を獲得して、競技会では10位にランクされた
・提案された手法のソースコードはGitHubで入手可能

要約(オリジナル)

In this paper, we propose a methodology for task 10 of SemEval23, focusing on detecting and classifying online sexism in social media posts. The task is tackling a serious issue, as detecting harmful content on social media platforms is crucial for mitigating the harm of these posts on users. Our solution for this task is based on an ensemble of fine-tuned transformer-based models (BERTweet, RoBERTa, and DeBERTa). To alleviate problems related to class imbalance, and to improve the generalization capability of our model, we also experiment with data augmentation and semi-supervised learning. In particular, for data augmentation, we use back-translation, either on all classes, or on the underrepresented classes only. We analyze the impact of these strategies on the overall performance of the pipeline through extensive experiments. while for semi-supervised learning, we found that with a substantial amount of unlabelled, in-domain data available, semi-supervised learning can enhance the performance of certain models. Our proposed method (for which the source code is available on Github attains an F1-score of 0.8613 for sub-taskA, which ranked us 10th in the competition

arxiv情報

著者 Sana Sabah Al-Azzawi,György Kovács,Filip Nilsson,Tosin Adewumi,Marcus Liwicki
発行日 2023-04-25 14:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク