LLMs and Finetuning: Benchmarking cross-domain performance for hate speech detection

要約

進化するオンライン コミュニケーションの状況において、ヘイト スピーチの検出は依然として手ごわい課題であり、デジタル プラットフォームの多様性によってさらに複雑化しています。
この研究では、ヘイトスピーチを識別する際の事前トレーニングおよび微調整された大規模言語モデル (LLM) の有効性と適応性を調査し、次の 2 つの中心的な質問に対処します。 (1) モデルのパフォーマンスは微調整とトレーニングにどの程度依存するか
(2) モデルはクロスドメインのヘイトスピーチ検出にどの程度まで一般化されていますか?
(3) 一般化の可能性に影響を与えるデータセットまたはモデルの具体的な特徴は何ですか?
実験では、事前トレーニングがなくても、LLM が最先端のものよりも大きな利点があることを示しています。
(1) の答えとして、LLaMA、Vicuna、およびそれらの事前トレーニングおよび微調整された状態で構成される 36 個のドメイン内分類器を、幅広いプラットフォームやディスカッション フォーラムにわたる 9 つの公開データセットにわたって分析します。
(2) の答えとして、特定のエンドドメイン データセットに対する 288 個のドメイン外分類器のパフォーマンスを評価しました。
(3) に対する答えとして、通常の最小二乗分析は、粒度の細かいヘイトスピーチ ラベルを使用したトレーニングの利点は、トレーニング データセットが小さいほど大きくなりますが、データセット サイズの増加とともに失われることを示唆しています。
最後に、クロスドメインの一般化可能性と適切なベンチマークの実践を強調しながら、ヘイトスピーチ検出の将来のビジョンを示します。

要約(オリジナル)

In the evolving landscape of online communication, hate speech detection remains a formidable challenge, further compounded by the diversity of digital platforms. This study investigates the effectiveness and adaptability of pre-trained and fine-tuned Large Language Models (LLMs) in identifying hate speech, to address two central questions: (1) To what extent does the model performance depend on the fine-tuning and training parameters?, (2) To what extent do models generalize to cross-domain hate speech detection? and (3) What are the specific features of the datasets or models that influence the generalization potential? The experiment shows that LLMs offer a huge advantage over the state-of-the-art even without pretraining. To answer (1) we analyze 36 in-domain classifiers comprising LLaMA, Vicuna, and their variations in pre-trained and fine-tuned states across nine publicly available datasets that span a wide range of platforms and discussion forums. To answer (2), we assessed the performance of 288 out-of-domain classifiers for a given end-domain dataset. In answer to (3), ordinary least squares analyses suggest that the advantage of training with fine-grained hate speech labels is greater for smaller training datasets but washed away with the increase in dataset size. We conclude with a vision for the future of hate speech detection, emphasizing cross-domain generalizability and appropriate benchmarking practices.

arxiv情報

著者 Ahmad Nasir,Aadish Sharma,Kokil Jaidka
発行日 2024-03-30 15:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク