Toxic language detection: a systematic survey of Arabic datasets

要約

この論文では、オンラインの有害な言語に焦点を当てたアラビア語データセットの包括的な調査を提供します。
私たちは合計 49 の利用可能なデータセットとそれに対応する論文を系統的に収集し、コンテンツ、アノテーション プロセス、再利用性という 3 つの主要な側面にわたる 16 の基準を考慮して徹底的な分析を実施しました。
この分析により、既存のギャップを特定し、将来の研究活動に向けた推奨事項を作成することができました。

要約(オリジナル)

This paper offers a comprehensive survey of Arabic datasets focused on online toxic language. We systematically gathered a total of 49 available datasets and their corresponding papers and conducted a thorough analysis, considering 16 criteria across three primary dimensions: content, annotation process, and reusability. This analysis enabled us to identify existing gaps and make recommendations for future research works.

arxiv情報

著者 Imene Bensalem,Paolo Rosso,Hanane Zitouni
発行日 2023-12-12 12:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク