BAN-PL: a Novel Polish Dataset of Banned Harmful and Offensive Content from web service


ヘイトスピーチやネットいじめなど、オンラインでの不快な言葉の自動検出の進歩には、ソーシャル メディア コンテンツを構成する公開されているデータセットへのアクセスの改善が必要です。
この論文では、有害としてフラグが付けられ、その後プロのモデレーターによって削除されたテキストを含む、ポーランド語の最初のオープン データセットである BAN-PL を紹介します。
このデータセットには、「ポーランドの Reddit」とも呼ばれる人気のソーシャル ネットワーキング サービス、Wykop の投稿とコメントの両方を含む合計 691,662 個のコンテンツが含まれており、「有害」と「中立」の 2 つの異なるクラスに均等に分散されています。
BAN-PL データセットは、冒とく的な言葉のマスクを解除するための高度な前処理スクリプトとともに、一般に公開されます。


Advances in automated detection of offensive language online, including hate speech and cyberbullying, require improved access to publicly available datasets comprising social media content. In this paper, we introduce BAN-PL, the first open dataset in the Polish language that encompasses texts flagged as harmful and subsequently removed by professional moderators. The dataset encompasses a total of 691,662 pieces of content from a popular social networking service, Wykop, often referred to as the ‘Polish Reddit’, including both posts and comments, and is evenly distributed into two distinct classes: ‘harmful’ and ‘neutral’. We provide a comprehensive description of the data collection and preprocessing procedures, as well as highlight the linguistic specificity of the data. The BAN-PL dataset, along with advanced preprocessing scripts for, i.a., unmasking profanities, will be publicly available.


著者 Inez Okulska,Kinga Głąbińska,Anna Kołos,Agnieszka Karlińska,Emilia Wiśnios,Adam Nowakowski,Paweł Ellerik,Andrzej Prałat
発行日 2023-08-23 11:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク