Hate Cannot Drive out Hate: Forecasting Conversation Incivility following Replies to Hate Speech

要約

ヘイトスピーチに対するユーザーによる返信は、憎悪に対抗する有望な手段だが、その後の会話での無礼な態度を止められるかどうかという疑問は残る。
私たちは、効果的な返信はその後の会話での無礼な態度の出現を阻止し、さらに無礼な態度を誘発する返信は逆効果であると主張します。
この研究では、ヘイトスピーチへの返信後の会話の無礼さを予測するタスクを導入しています。
我々はまず、市民的コメントと非礼的コメントの数、および談話に関与した固有の著者に基づいて、会話の非礼性を測定する指標を提案します。
私たちの指標は、以前の指標よりも人間の判断をより正確に近似しています。
次に、この指標を使用してヘイトスピーチへの返信の結果を評価します。
言語分析により、礼儀の高さと低さによるフォローアップの会話を引き起こす返信の言語の違いが明らかになります。
実験結果は、無礼な態度を予測することが困難であることを示しています。
最後に、最良のモデルによって発生する最も一般的なエラーを明らかにする定性分析で終わります。

要約(オリジナル)

User-generated replies to hate speech are promising means to combat hatred, but questions about whether they can stop incivility in follow-up conversations linger. We argue that effective replies stop incivility from emerging in follow-up conversations – replies that elicit more incivility are counterproductive. This study introduces the task of predicting the incivility of conversations following replies to hate speech. We first propose a metric to measure conversation incivility based on the number of civil and uncivil comments as well as the unique authors involved in the discourse. Our metric approximates human judgments more accurately than previous metrics. We then use the metric to evaluate the outcomes of replies to hate speech. A linguistic analysis uncovers the differences in the language of replies that elicit follow-up conversations with high and low incivility. Experimental results show that forecasting incivility is challenging. We close with a qualitative analysis shedding light into the most common errors made by the best model.

arxiv情報

著者 Xinchen Yu,Eduardo Blanco,Lingzi Hong
発行日 2023-12-08 02:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク