Evaluating ChatGPT’s Performance for Multilingual and Emoji-based Hate Speech Detection

要約

ヘイトスピーチは、多くのオンライン プラットフォームに影響を与える深刻な問題です。
これまでに、堅牢なヘイトスピーチ検出システムを開発するためにいくつかの研究が行われてきました。
最近、ChatGPT のような大規模な言語モデルは、ヘイトスピーチ検出などのいくつかのタスクの実行に大きな期待を寄せています。
ただし、堅牢なヘイトスピーチ検出システムを構築するには、これらのモデルの制限を理解することが重要です。
このギャップを埋めるために、私たちの研究は、11 言語にわたるヘイトスピーチの検出における ChatGPT モデルの長所と短所を詳細なレベルで評価することを目的としています。
私たちの評価では、マクロ F1 や精度などの集計指標では明らかにできない、モデルのさまざまな複雑な障害を明らかにする一連の機能テストが採用されています。
さらに、ヘイトスピーチでの絵文字の使用などの複雑な感情が ChatGPT モデルのパフォーマンスに及ぼす影響を調査します。
私たちの分析は、特定の種類のヘイトスピーチを検出する際の生成モデルの欠点を浮き彫りにし、これらのモデルの仕組みにおけるさらなる研究と改善の必要性を強調しています。

要約(オリジナル)

Hate speech is a severe issue that affects many online platforms. So far, several studies have been performed to develop robust hate speech detection systems. Large language models like ChatGPT have recently shown a great promise in performing several tasks, including hate speech detection. However, it is crucial to comprehend the limitations of these models to build robust hate speech detection systems. To bridge this gap, our study aims to evaluate the strengths and weaknesses of the ChatGPT model in detecting hate speech at a granular level across 11 languages. Our evaluation employs a series of functionality tests that reveals various intricate failures of the model which the aggregate metrics like macro F1 or accuracy are not able to unfold. In addition, we investigate the influence of complex emotions, such as the use of emojis in hate speech, on the performance of the ChatGPT model. Our analysis highlights the shortcomings of the generative models in detecting certain types of hate speech and highlighting the need for further research and improvements in the workings of these models.

arxiv情報

著者 Mithun Das,Saurabh Kumar Pandey,Animesh Mukherjee
発行日 2023-05-23 03:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク