要約
この論文では、オンラインの有害な言語に焦点を当てたアラビア語データセットの包括的な調査を提供します。
私たちは合計 49 の利用可能なデータセットとそれに対応する論文を系統的に収集し、コンテンツ、アノテーション プロセス、再利用性という 3 つの主要な側面にわたる 16 の基準を考慮して徹底的な分析を実施しました。
この分析により、既存のギャップを特定し、将来の研究活動に向けた推奨事項を作成することができました。
要約(オリジナル)
This paper offers a comprehensive survey of Arabic datasets focused on online toxic language. We systematically gathered a total of 49 available datasets and their corresponding papers and conducted a thorough analysis, considering 16 criteria across three primary dimensions: content, annotation process, and reusability. This analysis enabled us to identify existing gaps and make recommendations for future research works.
arxiv情報
著者 | Imene Bensalem,Paolo Rosso,Hanane Zitouni |
発行日 | 2023-12-12 12:43:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google