Investigating the Impact of Semi-Supervised Methods with Data Augmentation on Offensive Language Detection in Romanian Language

要約

攻撃的な言語の検出は、オンライン プラットフォームが敬意を持って包括的な環境を維持することに取り組んでいる今日のデジタル環境において重要なタスクです。
ただし、堅牢な攻撃的言語検出モデルを構築するには大量のラベル付きデータが必要であり、取得には費用と時間がかかる可能性があります。
半教師あり学習は、ラベル付きデータとラベルなしデータを利用して、より正確で堅牢なモデルを作成することで、実現可能なソリューションを提供します。
このペーパーでは、いくつかの異なる半教師あり手法とデータ拡張手法を検討します。
具体的には、8 つの半教師あり手法を実装し、RO-Offense データセット内の利用可能なデータのみを使用して実験を実行し、データをモデルにフィードする前に 5 つの拡張手法を適用しました。
実験結果は、一部のものは他のものよりも増強からより多くの恩恵を受けることを示しています。

要約(オリジナル)

Offensive language detection is a crucial task in today’s digital landscape, where online platforms grapple with maintaining a respectful and inclusive environment. However, building robust offensive language detection models requires large amounts of labeled data, which can be expensive and time-consuming to obtain. Semi-supervised learning offers a feasible solution by utilizing labeled and unlabeled data to create more accurate and robust models. In this paper, we explore a few different semi-supervised methods, as well as data augmentation techniques. Concretely, we implemented eight semi-supervised methods and ran experiments for them using only the available data in the RO-Offense dataset and applying five augmentation techniques before feeding the data to the models. Experimental results demonstrate that some of them benefit more from augmentations than others.

arxiv情報

著者 Elena Beatrice Nicola,Dumitru Clementin Cercel,Florin Pop
発行日 2024-07-29 15:02:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク