要約
ヘイトスピーチや暴言は世界的な現象であり、理解、特定、緩和するには社会文化的な背景知識が必要です。
しかし、グローバル・サウスの多くの地域では、(1) モデレーションの欠如、および (2) 文脈を無視したキーワード抽出への依存による検閲の発生がいくつか記録されています。
さらに、著名な人物がモデレーションプロセスの中心となることが多い一方、少数派に対する大規模で対象を絞ったヘイトスピーチキャンペーンは無視されてきました。
これらの制限は主に、現地言語の高品質なデータが不足していることと、収集、注釈、モデレーションのプロセスに現地コミュニティを含めることができていないことによるものです。
この問題に対処するために、アフリカの 15 言語のヘイトスピーチと虐待言語データセットの多言語コレクションである AfriHate を紹介します。
AfriHate の各インスタンスには、地元の文化に精通したネイティブ スピーカーによって注釈が付けられます。
データセットの構築に関連する課題を報告し、LLM を使用した場合と使用しない場合のさまざまな分類ベースラインの結果を示します。
データセット、個々の注釈、ヘイトスピーチと攻撃的な言語の辞書は、https://github.com/AfriHate/AfriHate で入手できます。
要約(オリジナル)
Hate speech and abusive language are global phenomena that need socio-cultural background knowledge to be understood, identified, and moderated. However, in many regions of the Global South, there have been several documented occurrences of (1) absence of moderation and (2) censorship due to the reliance on keyword spotting out of context. Further, high-profile individuals have frequently been at the center of the moderation process, while large and targeted hate speech campaigns against minorities have been overlooked. These limitations are mainly due to the lack of high-quality data in the local languages and the failure to include local communities in the collection, annotation, and moderation processes. To address this issue, we present AfriHate: a multilingual collection of hate speech and abusive language datasets in 15 African languages. Each instance in AfriHate is annotated by native speakers familiar with the local culture. We report the challenges related to the construction of the datasets and present various classification baseline results with and without using LLMs. The datasets, individual annotations, and hate speech and offensive language lexicons are available on https://github.com/AfriHate/AfriHate
arxiv情報
著者 | Shamsuddeen Hassan Muhammad,Idris Abdulmumin,Abinew Ali Ayele,David Ifeoluwa Adelani,Ibrahim Said Ahmad,Saminu Mohammad Aliyu,Nelson Odhiambo Onyango,Lilian D. A. Wanzare,Samuel Rutunda,Lukman Jibril Aliyu,Esubalew Alemneh,Oumaima Hourrane,Hagos Tesfahun Gebremichael,Elyas Abdi Ismail,Meriem Beloucif,Ebrahim Chekol Jibril,Andiswa Bukula,Rooweither Mabuya,Salomey Osei,Abigail Oppong,Tadesse Destaw Belay,Tadesse Kebede Guge,Tesfa Tegegne Asfaw,Chiamaka Ijeoma Chukwuneke,Paul Röttger,Seid Muhie Yimam,Nedjma Ousidhoum |
発行日 | 2025-01-15 08:55:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google