CL-UZH at SemEval-2023 Task 10: Sexism Detection through Incremental Fine-Tuning and Multi-Task Learning with Label Descriptions

要約

ソーシャルメディアの普及により、憎悪、虐待、性差別的な言葉が増加し、そのような現象を自動的に検出する方法が普及しています。
SemEval 共有タスク \textit{オンライン性差別の説明可能な検出に向けて} (EDOS 2023) の目標は、英語のソーシャル メディア投稿から性差別を検出し (サブタスク A)、そのような投稿を 4 つの大まかな性差別カテゴリに分類することです (サブタスク B)
)、および 11 のきめの細かいサブカテゴリー (サブタスク C)。
このペーパーでは、特定の EDOS サブタスクで微調整される前に、一連の関連タスクとデータセットで微調整されたマルチタスク モデルに基づいて、3 つのサブタスクすべてに対して提出されたシステムを紹介します。
各タスクをバイナリ ペアワイズ テキスト分類として定式化することでマルチタスク学習を実装します。データセットとラベルの説明は入力テキストとともに与えられます。
結果は、サブタスク A (ランク 13/84) で $F_1$-スコア 85.9\%、サブタスク B (ランク 19/69) で 64.8\% につながる、ベースラインとして機能する微調整された DeBERTa-V3 と比較して明らかな改善を示しています。
、サブタスク C では 44.9\% (26/63)。

要約(オリジナル)

The widespread popularity of social media has led to an increase in hateful, abusive, and sexist language, motivating methods for the automatic detection of such phenomena. The goal of the SemEval shared task \textit{Towards Explainable Detection of Online Sexism} (EDOS 2023) is to detect sexism in English social media posts (subtask A), and to categorize such posts into four coarse-grained sexism categories (subtask B), and eleven fine-grained subcategories (subtask C). In this paper, we present our submitted systems for all three subtasks, based on a multi-task model that has been fine-tuned on a range of related tasks and datasets before being fine-tuned on the specific EDOS subtasks. We implement multi-task learning by formulating each task as binary pairwise text classification, where the dataset and label descriptions are given along with the input text. The results show clear improvements over a fine-tuned DeBERTa-V3 serving as a baseline leading to $F_1$-scores of 85.9\% in subtask A (rank 13/84), 64.8\% in subtask B (rank 19/69), and 44.9\% in subtask C (26/63).

arxiv情報

著者 Janis Goldzycher
発行日 2023-06-06 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク