Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual Predatory Chats and Abusive Texts

要約

オンラインの安全性、特に子供や青少年などの弱い立場にある人々に対する懸念が高まっているため、オンラインの性的略奪行為やソーシャル メディア プラットフォーム上の暴言の検出は重要な研究分野となっています。
研究者は、これらのリスクを特定して軽減できる効果的な検出システムを開発するために、さまざまな技術やアプローチを模索してきました。
最近の大規模言語モデル (LLM) の開発により、この問題をより効果的に解決する新たな機会が開かれました。
この論文では、Meta GenAI によって最近リリースされた、オープンソースの事前トレーニング済み Llama 2 7B パラメーター モデルを使用して、オンラインの性的略奪的なチャットと暴言を検出するアプローチを提案します。
さまざまなサイズ、不均衡度、言語 (つまり、英語、ローマ字ウルドゥー語、ウルドゥー語) のデータセットを使用して LLM を微調整します。
LLM の能力に基づいた私たちのアプローチは汎用的で自動化されており、この分野の従来の方法のように、特徴抽出と分類器の設計ステップの間の相乗効果を手動で検索する必要はありません。
実験結果は、提案されたアプローチの強力なパフォーマンスを示しており、5 セットの実験で 3 つの異なるデータセットにわたって熟練した一貫したパフォーマンスを発揮します。
この研究の結果は、提案された方法が、オンラインのディスカッションやコメントにおける性的略奪者、攻撃的または有害なコンテンツ、ヘイトスピーチ、差別的な言葉に警告を発し、インターネット上の敬意を維持するために(英語以外の言語であっても)現実世界のアプリケーションに実装できることを示しています。
デジタルコミュニティ。
さらに、センチメント分析、スパムとフィッシングの検出、法的文書の分類、フェイクニュースの検出、言語識別、ユーザーの意図の認識、テキストベースの製品分類、医療記録分析など、他の潜在的なアプリケーションでテキスト分類の問題を解決するために使用できます。
そして上映を再開します。

要約(オリジナル)

Detecting online sexual predatory behaviours and abusive language on social media platforms has become a critical area of research due to the growing concerns about online safety, especially for vulnerable populations such as children and adolescents. Researchers have been exploring various techniques and approaches to develop effective detection systems that can identify and mitigate these risks. Recent development of large language models (LLMs) has opened a new opportunity to address this problem more effectively. This paper proposes an approach to detection of online sexual predatory chats and abusive language using the open-source pretrained Llama 2 7B-parameter model, recently released by Meta GenAI. We fine-tune the LLM using datasets with different sizes, imbalance degrees, and languages (i.e., English, Roman Urdu and Urdu). Based on the power of LLMs, our approach is generic and automated without a manual search for a synergy between feature extraction and classifier design steps like conventional methods in this domain. Experimental results show a strong performance of the proposed approach, which performs proficiently and consistently across three distinct datasets with five sets of experiments. This study’s outcomes indicate that the proposed method can be implemented in real-world applications (even with non-English languages) for flagging sexual predators, offensive or toxic content, hate speech, and discriminatory language in online discussions and comments to maintain respectful internet or digital communities. Furthermore, it can be employed for solving text classification problems with other potential applications such as sentiment analysis, spam and phishing detection, sorting legal documents, fake news detection, language identification, user intent recognition, text-based product categorization, medical record analysis, and resume screening.

arxiv情報

著者 Thanh Thi Nguyen,Campbell Wilson,Janis Dalins
発行日 2023-08-28 16:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク