Large-Scale Korean Text Dataset for Classifying Biased Speech in Real-World Online Services

要約

オンライン サービスの成長に伴い、感情分析や偏ったテキスト検出などの高度なテキスト分類アルゴリズムの必要性がますます明らかになってきています。
オンライン サービスの匿名性は、偏った有害な言葉の存在につながり、オンライン コミュニティの健全性を維持する上で課題となることがよくあります。
この現象は、大規模なヘイトスピーチ検出アルゴリズムがまだ広く研究されていない韓国に特に関係しています。
このペーパーでは、韓国の有名な SNS プラットフォームから収集された新しい包括的で大規模なデータセットを紹介します。
私たちが提案するデータセットは、テキスト サンプルに対して (1) 設定、(2) 冒涜、(3) 9 種類のバイアスを含むアノテーションを提供し、ユーザーが作成したテキストを同時に分類するためのマルチタスク学習を可能にします。
最先端の BERT ベースの言語モデルを活用する当社のアプローチは、さまざまな指標によって測定されるように、さまざまな分類タスクにわたって人間レベルの精度を超えています。
学術的な貢献を超えて、私たちの活動は現実世界のヘイトスピーチや偏見を軽減するための実践的な解決策を提供し、オンライン コミュニティの健全性の向上に直接貢献することができます。
私たちの研究は、オンラインでの議論の質を向上させ、社会の幸福を促進することを目的とした将来の研究のための強固な基盤を提供します。
すべてのソース コードとデータセットは、https://github.com/Dasol-Choi/KoMultiText で公開されています。

要約(オリジナル)

With the growth of online services, the need for advanced text classification algorithms, such as sentiment analysis and biased text detection, has become increasingly evident. The anonymous nature of online services often leads to the presence of biased and harmful language, posing challenges to maintaining the health of online communities. This phenomenon is especially relevant in South Korea, where large-scale hate speech detection algorithms have not yet been broadly explored. In this paper, we introduce a new comprehensive, large-scale dataset collected from a well-known South Korean SNS platform. Our proposed dataset provides annotations including (1) Preferences, (2) Profanities, and (3) Nine types of Bias for the text samples, enabling multi-task learning for simultaneous classification of user-generated texts. Leveraging state-of-the-art BERT-based language models, our approach surpasses human-level accuracy across diverse classification tasks, as measured by various metrics. Beyond academic contributions, our work can provide practical solutions for real-world hate speech and bias mitigation, contributing directly to the improvement of online community health. Our work provides a robust foundation for future research aiming to improve the quality of online discourse and foster societal well-being. All source codes and datasets are publicly accessible at https://github.com/Dasol-Choi/KoMultiText.

arxiv情報

著者 Dasol Choi,Jooyoung Song,Eunsun Lee,Jinwoo Seo,Heejune Park,Dongbin Na
発行日 2023-10-06 15:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク