Detecting Sexism in German Online Newspaper Comments with Open-Source Text Embeddings (Team GDA, GermEval2024 Shared Task 1: GerMS-Detect, Subtasks 1 and 2, Closed Track)

要約

オンライン メディアのコメントにおける性差別は広範囲にわたる課題であり、しばしば微妙に現れ、性差別の構成要素の解釈が個人によって異なるため、穏健化の取り組みが複雑になります。
私たちは、オーストリアの新聞からのドイツ語のオンライン コメントに含まれる性差別と女性蔑視を確実に検出するために、単言語および多言語のオープンソース テキストの埋め込みを研究しています。
私たちは、テキスト埋め込みに関してトレーニングされた分類子が、人間のアノテーターの個々の判断を厳密に模倣していることを観察しました。
私たちのメソッドは、GermEval 2024 GerMS-Detect サブタスク 1 チャレンジで堅牢なパフォーマンスを示し、平均マクロ F1 スコア 0.597 (Codabench での報告によると 4 位) を達成しました。
また、GerMS-Detect サブタスク 2 における人間のアノテーションの分布も正確に予測し、平均 Jensen-Shannon 距離は 0.301 (2 位) でした。
私たちのアプローチの計算効率は、さまざまな言語や言語コンテキストにわたるスケーラブルなアプリケーションの可能性を示唆しています。

要約(オリジナル)

Sexism in online media comments is a pervasive challenge that often manifests subtly, complicating moderation efforts as interpretations of what constitutes sexism can vary among individuals. We study monolingual and multilingual open-source text embeddings to reliably detect sexism and misogyny in German-language online comments from an Austrian newspaper. We observed classifiers trained on text embeddings to mimic closely the individual judgements of human annotators. Our method showed robust performance in the GermEval 2024 GerMS-Detect Subtask 1 challenge, achieving an average macro F1 score of 0.597 (4th place, as reported on Codabench). It also accurately predicted the distribution of human annotations in GerMS-Detect Subtask 2, with an average Jensen-Shannon distance of 0.301 (2nd place). The computational efficiency of our approach suggests potential for scalable applications across various languages and linguistic contexts.

arxiv情報

著者 Florian Bremm,Patrick Gustav Blaneck,Tobias Bornheim,Niklas Grieger,Stephan Bialonski
発行日 2024-09-16 14:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク