HausaNLP at SemEval-2023 Task 10: Transfer Learning, Synthetic Data and Side-Information for Multi-Level Sexism Classification

要約

タイトル:マルチレベルなセクシズム分類のための転移学習、合成データ、およびサイド情報を用いた SemEval-2023 タスク10 における HausaNLP

要約:

– SemEval-2023タスク10におけるオンラインセクシズムの解釈可能検出(EDOS)タスクに参加し、英語のGabおよびRedditデータセット上の攻撃的言語(セクシズム)検出についての所見を発表する。
– 我々は、2つの言語モデルであるXLM-T(感情分類)およびHateBERT(同じドメインReddit)の転移効果を調査し、セクシズムであるかでないか、およびその他の次のサブクラス分類についてのマルチレベル分類を行った。
– また、ラベルが付けられていないデータセットの合成分類および中間クラス情報を使用して、モデルの性能を最大化した。
– TaskAのシステムを提出し、0.82のF1スコアで49位にランクイン。この結果は、最高のシステムに0.052%のF1スコアで劣るだけであったため、競争力があることを示した。

要約(オリジナル)

We present the findings of our participation in the SemEval-2023 Task 10: Explainable Detection of Online Sexism (EDOS) task, a shared task on offensive language (sexism) detection on English Gab and Reddit dataset. We investigated the effects of transferring two language models: XLM-T (sentiment classification) and HateBERT (same domain — Reddit) for multi-level classification into Sexist or not Sexist, and other subsequent sub-classifications of the sexist data. We also use synthetic classification of unlabelled dataset and intermediary class information to maximize the performance of our models. We submitted a system in Task A, and it ranked 49th with F1-score of 0.82. This result showed to be competitive as it only under-performed the best system by 0.052% F1-score.

arxiv情報

著者 Saminu Mohammad Aliyu,Idris Abdulmumin,Shamsuddeen Hassan Muhammad,Ibrahim Said Ahmad,Saheed Abdullahi Salahudeen,Aliyu Yusuf,Falalu Ibrahim Lawan
発行日 2023-04-28 20:03:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク