On the Challenges of Building Datasets for Hate Speech Detection

要約

ヘイトスピーチの検出は NLP のスタンドアロン アプリケーションとして定式化されており、ターゲット グループの特定、生データの取得、ラベル付けプロセスの定義、検出アルゴリズムの選択、および目的の設定でのパフォーマンスの評価にさまざまなアプローチが採用されています。
ただし、他の下流タスクとは異なり、ヘイトスピーチはタスクの非常に主観的な性質のため、大規模で慎重に精選された一般化可能なデータセットが不足しているという問題があります。
このペーパーでは、まずデータ中心のレンズを通してヘイトスピーチ検出を取り巻く問題を分析します。
次に、性的マイノリティに対するヘイトスピーチの具体例を取り上げ、7 つの広範な側面にわたるデータ作成パイプラインをカプセル化するための全体的なフレームワークの概要を説明します。
私たちは、実務者が将来ヘイトスピーチ データセットを作成する際のベスト プラクティスとしてこのフレームワークに従うことで利益を得られると考えています。

要約(オリジナル)

Detection of hate speech has been formulated as a standalone application of NLP and different approaches have been adopted for identifying the target groups, obtaining raw data, defining the labeling process, choosing the detection algorithm, and evaluating the performance in the desired setting. However, unlike other downstream tasks, hate speech suffers from the lack of large-sized, carefully curated, generalizable datasets owing to the highly subjective nature of the task. In this paper, we first analyze the issues surrounding hate speech detection through a data-centric lens. We then outline a holistic framework to encapsulate the data creation pipeline across seven broad dimensions by taking the specific example of hate speech towards sexual minorities. We posit that practitioners would benefit from following this framework as a form of best practice when creating hate speech datasets in the future.

arxiv情報

著者 Vitthal Bhandari
発行日 2023-09-06 11:15:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク