要約
ヘイトスピーチやネットいじめなど、オンラインでの不快な言葉の自動検出の進歩には、ソーシャル メディア コンテンツを構成する公開されているデータセットへのアクセスの改善が必要です。
この論文では、有害としてフラグが付けられ、その後プロのモデレーターによって削除されたテキストを含む、ポーランド語の最初のオープン データセットである BAN-PL を紹介します。
このデータセットには、「ポーランドの Reddit」とも呼ばれる人気のソーシャル ネットワーキング サービス Wykop.pl の投稿とコメントの両方を含む合計 691,662 個のコンテンツが含まれており、「有害」と「有害」の 2 つの異なるクラスに均等に分散されています。
‘中性’。
データ収集と前処理手順の包括的な説明を提供するとともに、データの言語的特異性についても強調します。
BAN-PL データセットは、冒とく的な言葉のマスクを解除するための高度な前処理スクリプトとともに、一般に公開されます。
要約(オリジナル)
Advances in automated detection of offensive language online, including hate speech and cyberbullying, require improved access to publicly available datasets comprising social media content. In this paper, we introduce BAN-PL, the first open dataset in the Polish language that encompasses texts flagged as harmful and subsequently removed by professional moderators. The dataset encompasses a total of 691,662 pieces of content from a popular social networking service, Wykop.pl, often referred to as the ‘Polish Reddit’, including both posts and comments, and is evenly distributed into two distinct classes: ‘harmful’ and ‘neutral’. We provide a comprehensive description of the data collection and preprocessing procedures, as well as highlight the linguistic specificity of the data. The BAN-PL dataset, along with advanced preprocessing scripts for, i.a., unmasking profanities, will be publicly available.
arxiv情報
著者 | Inez Okulska,Kinga Głąbińska,Anna Kołos,Agnieszka Karlińska,Emilia Wiśnios,Adam Nowakowski,Paweł Ellerik,Andrzej Prałat |
発行日 | 2023-08-21 09:47:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google