要約
ヘイトスピーチの微妙だが有害な表現として特徴付けられる非人間化には、個人の人間性の否定が含まれ、多くの場合、疎外されたグループに対する暴力をもたらします。
自然言語処理はさまざまな分野で大幅に進歩しているにもかかわらず、人間性を奪う言語の検出への応用は限られています。これは主に、この分野で公開されている注釈付きデータが不足しているためです。
この論文では、人間性を奪う言語を識別する際の、GPT-4、GPT-3.5、LLAMA-2 などの最先端の NLP モデルのパフォーマンスを評価します。
私たちの調査結果では、これらのモデルは人間性を奪う言葉と広範なヘイトスピーチを区別する際に 70% の精度を達成する可能性を示している一方で、バイアスも示していることが明らかになりました。
彼らは、他の形態のヘイトスピーチを対象グループの特定のサブセットに対する人間性の喪失として分類することに過剰に敏感である一方、他の対象グループに対する非人間性の明らかなケースを特定できないことがより頻繁にあります。
さらに、最もパフォーマンスの高いモデルの 1 つを利用して、よりアクセスしやすいモデルをトレーニングするために、より大きなデータセットに自動的にアノテーションを付けました。
ただし、私たちの調査結果は、これらのモデルが現在、このタスクに必要な高品質のデータ生成のしきい値を満たしていないことを示しています。
要約(オリジナル)
Dehumanization, characterized as a subtle yet harmful manifestation of hate speech, involves denying individuals of their human qualities and often results in violence against marginalized groups. Despite significant progress in Natural Language Processing across various domains, its application in detecting dehumanizing language is limited, largely due to the scarcity of publicly available annotated data for this domain. This paper evaluates the performance of cutting-edge NLP models, including GPT-4, GPT-3.5, and LLAMA-2, in identifying dehumanizing language. Our findings reveal that while these models demonstrate potential, achieving a 70\% accuracy rate in distinguishing dehumanizing language from broader hate speech, they also display biases. They are over-sensitive in classifying other forms of hate speech as dehumanization for a specific subset of target groups, while more frequently failing to identify clear cases of dehumanization for other target groups. Moreover, leveraging one of the best-performing models, we automatically annotated a larger dataset for training more accessible models. However, our findings indicate that these models currently do not meet the high-quality data generation threshold necessary for this task.
arxiv情報
著者 | Hezhao Zhang,Lasana Harris,Nafise Sadat Moosavi |
発行日 | 2024-02-21 13:57:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google