LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection

要約

オンラインコミュニケーションの進化する景観では、ヘイトスピーチの検出は、デジタルプラットフォームの多様性によってさらに悪化した、恐ろしい課題のままです。
この研究では、ヘイトスピーチを特定する際に、事前に訓練された大型言語モデル(LLM)の有効性と適応性を調査し、2つの中心的な質問に対処します。(1)モデルのパフォーマンスは、微調整およびトレーニングパラメーターにどの程度依存しますか?
(3)一般化の可能性に影響を与えるデータセットまたはモデルの特定の機能は何ですか?
この実験は、LLMSが事前に除去されなくても、最先端よりも大きな利点を提供することを示しています。
通常の最小二乗分析では、細粒のヘイトスピーチラベルを使用したトレーニングの利点は、データセットサイズの増加とともに洗い流されることを示唆しています。
私たちの研究は、ヘイトスピーチ検出のための大規模な言語モデル(LLM)の可能性を実証していますが、特に結果の妥当性と再現性に関して、いくつかの制限が残っています。
私たちは、実験で直面した課題についての徹底的な議論で締めくくり、この種のベンチマーク実験を設計する将来の学者に推奨されるベストプラクティスを提供します。

要約(オリジナル)

In the evolving landscape of online communication, hate speech detection remains a formidable challenge, further compounded by the diversity of digital platforms. This study investigates the effectiveness and adaptability of pre-trained and fine-tuned Large Language Models (LLMs) in identifying hate speech, to address two central questions: (1) To what extent does the model performance depend on the fine-tuning and training parameters?, (2) To what extent do models generalize to cross-domain hate speech detection? and (3) What are the specific features of the datasets or models that influence the generalization potential? The experiment shows that LLMs offer a huge advantage over the state-of-the-art even without pretraining. Ordinary least squares analyses suggest that the advantage of training with fine-grained hate speech labels is washed away with the increase in dataset size. While our research demonstrates the potential of large language models (LLMs) for hate speech detection, several limitations remain, particularly regarding the validity and the reproducibility of the results. We conclude with an exhaustive discussion of the challenges we faced in our experimentation and offer recommended best practices for future scholars designing benchmarking experiments of this kind.

arxiv情報

著者 Ahmad Nasir,Aadish Sharma,Kokil Jaidka,Saifuddin Ahmed
発行日 2025-04-30 14:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク