Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets

要約

オンライン プラットフォームの台頭によりヘイトスピーチの蔓延が悪化し、拡張性と効果的な検出が求められています。
ただし、ヘイトスピーチ検出システムの精度は人間がラベルを付けたデータに大きく依存しており、データは本質的にバイアスの影響を受けやすいものです。
以前の研究ではこの問題が検討されましたが、アノテーターの特性とヘイトのターゲットの特性の間の相互作用はまだ解明されていません。
私たちは、アノテーターとターゲットの両方に関する豊富な社会人口統計情報を含む広範なデータセットを活用することでこのギャップを埋め、ターゲットの属性に関連して人間のバイアスがどのように現れるかを明らかにします。
私たちの分析により、広範なバイアスの存在が明らかになり、その強度と蔓延に基づいて定量的に記述および特徴付けられ、顕著な違いが明らかになります。
さらに、人間のバイアスとペルソナベースの LLM が示すバイアスを比較します。
私たちの調査結果は、ペルソナベースの LLM にはバイアスがあるものの、人間のアノテーターのバイアスとは大きく異なることを示しています。
全体として、私たちの研究は、ヘイトスピーチの注釈における人間の偏見に関する新しく微妙な結果を提供するとともに、AI 主導のヘイトスピーチ検出システムの設計についての新鮮な洞察を提供します。

要約(オリジナル)

The rise of online platforms exacerbated the spread of hate speech, demanding scalable and effective detection. However, the accuracy of hate speech detection systems heavily relies on human-labeled data, which is inherently susceptible to biases. While previous work has examined the issue, the interplay between the characteristics of the annotator and those of the target of the hate are still unexplored. We fill this gap by leveraging an extensive dataset with rich socio-demographic information of both annotators and targets, uncovering how human biases manifest in relation to the target’s attributes. Our analysis surfaces the presence of widespread biases, which we quantitatively describe and characterize based on their intensity and prevalence, revealing marked differences. Furthermore, we compare human biases with those exhibited by persona-based LLMs. Our findings indicate that while persona-based LLMs do exhibit biases, these differ significantly from those of human annotators. Overall, our work offers new and nuanced results on human biases in hate speech annotations, as well as fresh insights into the design of AI-driven hate speech detection systems.

arxiv情報

著者 Tommaso Giorgi,Lorenzo Cima,Tiziano Fagni,Marco Avvenuti,Stefano Cresci
発行日 2024-12-19 15:16:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク