要約
ソーシャルメディアの普及に伴い、オンラインの安全を確保するにはヘイトスピーチを正確に検出することが重要になっています。
微妙な形態のヘイトスピーチに対抗するには、ヘイトスピーチを特定して徹底的に説明し、ユーザーがその有害な影響を理解できるようにすることが重要です。
最近のベンチマークでは、嫌がらせテキストの含意に関するフリーテキストの注釈に基づいて生成モデルをトレーニングすることで、この問題に取り組もうとしています。
しかし、既存のアノテーションスキームには大きな推論上のギャップがあり、それが検出モデルの監視を妨げる可能性があることがわかりました。
この論文では、大規模言語モデル (LLM) の推論機能を利用してヘイト スピーチの説明におけるこうしたギャップを埋め、検出モデルの効果的な監視を可能にするヘイト スピーチ検出フレームワーク HARE を紹介します。
SBIC および Implicit Hate ベンチマークの実験では、モデル生成データを使用した私たちの方法が、既存のフリーテキストによる人間による注釈を使用したベースラインよりも一貫して優れていることがわかりました。
分析により、私たちの方法がトレーニングされたモデルの説明品質を向上させ、目に見えないデータセットへの一般化が向上することが実証されました。
私たちのコードは https://github.com/joonkeekim/hare-hate-speech.git で入手できます。
要約(オリジナル)
With the proliferation of social media, accurate detection of hate speech has become critical to ensure safety online. To combat nuanced forms of hate speech, it is important to identify and thoroughly explain hate speech to help users understand its harmful effects. Recent benchmarks have attempted to tackle this issue by training generative models on free-text annotations of implications in hateful text. However, we find significant reasoning gaps in the existing annotations schemes, which may hinder the supervision of detection models. In this paper, we introduce a hate speech detection framework, HARE, which harnesses the reasoning capabilities of large language models (LLMs) to fill these gaps in explanations of hate speech, thus enabling effective supervision of detection models. Experiments on SBIC and Implicit Hate benchmarks show that our method, using model-generated data, consistently outperforms baselines, using existing free-text human annotations. Analysis demonstrates that our method enhances the explanation quality of trained models and improves generalization to unseen datasets. Our code is available at https://github.com/joonkeekim/hare-hate-speech.git.
arxiv情報
著者 | Yongjin Yang,Joonkee Kim,Yujin Kim,Namgyu Ho,James Thorne,Se-young Yun |
発行日 | 2023-11-01 06:09:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google