Towards Generalized Offensive Language Identification

要約

ヘイトスピーチやネットいじめなど、インターネット上での不快なコンテンツの蔓延は、世界中に蔓延している問題です。
その結果、機械学習 (ML) および自然言語処理 (NLP) コミュニティから大きな注目を集めています。
その結果、潜在的に有害なコンテンツを自動的に識別し、その影響を軽減するための多数のシステムが開発されてきました。
これらのシステムは 2 つのアプローチに従うことができます。
(1) 大規模言語モデル (LLM) のプロンプトを含む、公開されているモデルとアプリケーション エンドポイントを使用します。(2) データセットに注釈を付け、それらのデータセット上で ML モデルをトレーニングします。
ただし、どちらのアプローチも、それがどの程度一般化できるかについての理解が不足しています。
さらに、これらのシステムの適用可能性は、ドメイン外の実際的な環境で疑問視されることがよくあります。
この論文では、新しい一般化されたベンチマーク全体にわたる攻撃的な言語検出モデルとデータセットの一般化可能性を経験的に評価します。
一般化可能性に関する 3 つの研究上の質問に答えます。
私たちの発見は、堅牢な現実世界の攻撃的な言語検出システムの作成に役立ちます。

要約(オリジナル)

The prevalence of offensive content on the internet, encompassing hate speech and cyberbullying, is a pervasive issue worldwide. Consequently, it has garnered significant attention from the machine learning (ML) and natural language processing (NLP) communities. As a result, numerous systems have been developed to automatically identify potentially harmful content and mitigate its impact. These systems can follow two approaches; (1) Use publicly available models and application endpoints, including prompting large language models (LLMs) (2) Annotate datasets and train ML models on them. However, both approaches lack an understanding of how generalizable they are. Furthermore, the applicability of these systems is often questioned in off-domain and practical environments. This paper empirically evaluates the generalizability of offensive language detection models and datasets across a novel generalized benchmark. We answer three research questions on generalizability. Our findings will be useful in creating robust real-world offensive language detection systems.

arxiv情報

著者 Alphaeus Dmonte,Tejas Arya,Tharindu Ranasinghe,Marcos Zampieri
発行日 2024-07-26 13:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク