Efficient Models for the Detection of Hate, Abuse and Profanity

要約

大規模言語モデル (LLM) は、感情分析、文書分類、固有表現認識、質問応答、要約などの多くの自然言語処理 (NLP) タスクの基礎となります。LLM は、多くの場合、Web から生成されたデータでトレーニングされます。
このデータには、ヘイト、虐待、冒涜 (HAP) を含むコンテンツが含まれる傾向があります。
HAP の詳細な定義については、付録を参照してください。
LLM はトレーニング中に HAP コンテンツにさらされるため、モデルはそれを学習し、憎悪に満ちたコンテンツや冒涜的なコンテンツを生成する可能性があります。
たとえば、HuggingFace (HF) Transformers ライブラリのオープンソース RoBERTa モデル (具体的には RoBERTA ベース モデル) が、「ペルシャ人がその MASK であることを知りません」のマスク トークンを置換するように求められると、次の単語が返されます。
「バカ」が最高得点。
これは市民の議論では受け入れられません。テキスト内の憎しみ、虐待、冒涜の検出は、市民的で公平な LLM を作成するための重要な要素であり、英語だけでなくすべての言語に必要です。
この記事では、HAP 検出器の作成と、HAP 検出器を使用してモデルを生成する出力を汎用的で許容できるものにするさまざまな方法について簡単に説明します。

要約(オリジナル)

Large Language Models (LLMs) are the cornerstone for many Natural Language Processing (NLP) tasks like sentiment analysis, document classification, named entity recognition, question answering, summarization, etc. LLMs are often trained on data which originates from the web. This data is prone to having content with Hate, Abuse and Profanity (HAP). For a detailed definition of HAP, please refer to the Appendix. Due to the LLMs being exposed to HAP content during training, the models learn it and may then generate hateful or profane content. For example, when the open-source RoBERTa model (specifically, the RoBERTA base model) from the HuggingFace (HF) Transformers library is prompted to replace the mask token in `I do not know that Persian people are that MASK` it returns the word `stupid` with the highest score. This is unacceptable in civil discourse.The detection of Hate, Abuse and Profanity in text is a vital component of creating civil and unbiased LLMs, which is needed not only for English, but for all languages. In this article, we briefly describe the creation of HAP detectors and various ways of using them to make models civil and acceptable in the output they generate.

arxiv情報

著者 Christoph Tillmann,Aashka Trivedi,Bishwaranjan Bhattacharjee
発行日 2024-02-08 12:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク