Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges

要約

ソーシャルメディアにおける攻撃的な言語の蔓延と急速な進化により、検出の複雑さが増大しており、特に多様な言語にわたってそのようなコンテンツを識別する際の課題が浮き彫りになっています。
この調査は、ソーシャル メディアにおける攻撃的な言語の検出における言語間転移学習 (CLTL) 技術の体系的かつ包括的な調査を示しています。
私たちの研究は、この分野における言語を越えたシナリオのみに焦点を当てた最初の全体的な概要として位置づけられています。
私たちは 67 件の関連論文を分析し、使用された多言語データセットの特性、使用された言語を超えたリソース、実装された特定の CLTL 戦略など、さまざまな側面にわたってこれらの研究を分類します。
「何を転送するか」に応じて、インスタンス、機能、パラメータ転送という 3 つの主要な CLTL 転送アプローチも要約します。
さらに、この分野における現在の課題と将来の研究の機会にも光を当てます。
さらに、レビューされた文献で使用されている多言語データセットと CLTL 手法へのアクセス可能な参照を提供する 2 つの包括的な表を含む、調査リソースをオンラインで利用できるようにしました。

要約(オリジナル)

The growing prevalence and rapid evolution of offensive language in social media amplify the complexities of detection, particularly highlighting the challenges in identifying such content across diverse languages. This survey presents a systematic and comprehensive exploration of Cross-Lingual Transfer Learning (CLTL) techniques in offensive language detection in social media. Our study stands as the first holistic overview to focus exclusively on the cross-lingual scenario in this domain. We analyse 67 relevant papers and categorise these studies across various dimensions, including the characteristics of multilingual datasets used, the cross-lingual resources employed, and the specific CLTL strategies implemented. According to ‘what to transfer’, we also summarise three main CLTL transfer approaches: instance, feature, and parameter transfer. Additionally, we shed light on the current challenges and future research opportunities in this field. Furthermore, we have made our survey resources available online, including two comprehensive tables that provide accessible references to the multilingual datasets and CLTL methods used in the reviewed literature.

arxiv情報

著者 Aiqi Jiang,Arkaitz Zubiaga
発行日 2024-01-17 14:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク