Antisemitic Messages? A Guide to High-Quality Annotation and a Labeled Dataset of Tweets



– 自動的な憎悪的なスピーチの検出において、さまざまなバイアス的、非バイアス的メッセージをカバーし、一貫してラベルが付けられたデータセットが不足していることが大きな課題の一つ
– ラベル付けプロセスにおいて、一般的なラベル付けの弱点に対処するための手順を提案する
– 本研究は、Twitter上の反ユダヤ主義的なスピーチに焦点を当て、関連キーワードを利用して、2019年1月から2021年12月までのJew、Israel、antisemitismの会話で一般的なトピックをカバーする6,941件のツイートのラベル付きデータセットを作成する
– 注釈付けプロセスは、一般的に使用される反ユダヤ主義の定義を厳密に適用することを目的としており、注釈者に定義がどの部分に当てはまるかを指定させるとともに、場合によっては定義に個人的に異議を唱えることができるようにしている
– 反ユダヤ主義を告発したり、報告したり、またはホロコーストなど反ユダヤ主義に関連するが実際には反ユダヤ主義ではないツイートをラベル付けすることで、自動検出における誤検知を減らすことができる
– データセットには、国際ホロコースト記念日同盟(IHRA)の反ユダヤ主義の定義によれば反ユダヤ主義的な1,250のツイート(18%)が含まれている
– ただし、本研究のデータセットは網羅的ではなく、多くのトピックはまだカバーされておらず、Twitterから収集された英語のツイートのみが含まれている
– これらの制限にもかかわらず、本研究が反ユダヤ主義的なスピーチの自動検出を改善するために有益な貢献になることを期待する。


One of the major challenges in automatic hate speech detection is the lack of datasets that cover a wide range of biased and unbiased messages and that are consistently labeled. We propose a labeling procedure that addresses some of the common weaknesses of labeled datasets. We focus on antisemitic speech on Twitter and create a labeled dataset of 6,941 tweets that cover a wide range of topics common in conversations about Jews, Israel, and antisemitism between January 2019 and December 2021 by drawing from representative samples with relevant keywords. Our annotation process aims to strictly apply a commonly used definition of antisemitism by forcing annotators to specify which part of the definition applies, and by giving them the option to personally disagree with the definition on a case-by-case basis. Labeling tweets that call out antisemitism, report antisemitism, or are otherwise related to antisemitism (such as the Holocaust) but are not actually antisemitic can help reduce false positives in automated detection. The dataset includes 1,250 tweets (18%) that are antisemitic according to the International Holocaust Remembrance Alliance (IHRA) definition of antisemitism. It is important to note, however, that the dataset is not comprehensive. Many topics are still not covered, and it only includes tweets collected from Twitter between January 2019 and December 2021. Additionally, the dataset only includes tweets that were written in English. Despite these limitations, we hope that this is a meaningful contribution to improving the automated detection of antisemitic speech.


著者 Gunther Jikeli,Sameer Karali,Daniel Miehling,Katharina Soemer
発行日 2023-04-28 02:52:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CY パーマリンク