SafeWebUH at SemEval-2023 Task 11: Learning Annotator Disagreement in Derogatory Text: Comparison of Direct Training vs Aggregation

要約

タイトル:SafeWebUH at SemEval-2023 Task 11:直接トレーニングと集約の比較における蔑称的テキストの注釈付け者不一致の学習

要約:
– 社会的フェノメノンである主観性や意見の相違は重要であり、蔑称的なテキストコンテンツの注釈付けと検出プロセスにこれらを考慮することが重要です。
– 本論文では、SemEval-2023 Task 11で提供された4つのデータセットを使用し、BERTモデルを微調整して注釈付けの不一致を捉えます。
– ソフトラベルの直接トレーニングと比較して、個々の注釈付け者モデリングと集約は平均でCross-Entropyスコアを0.21低下させることがわかりました。
– 我々の調査結果は、注釈付け者のメタデータがCross-Entropyスコアの平均0.029の低下に貢献することを示しています。

要約(オリジナル)

Subjectivity and difference of opinion are key social phenomena, and it is crucial to take these into account in the annotation and detection process of derogatory textual content. In this paper, we use four datasets provided by SemEval-2023 Task 11 and fine-tune a BERT model to capture the disagreement in the annotation. We find individual annotator modeling and aggregation lowers the Cross-Entropy score by an average of 0.21, compared to the direct training on the soft labels. Our findings further demonstrate that annotator metadata contributes to the average 0.029 reduction in the Cross-Entropy score.

arxiv情報

著者 Sadat Shahriar,Thamar Solorio
発行日 2023-05-01 19:30:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, cs.SI パーマリンク