Detection of Offensive and Threatening Online Content in a Low Resource Language

要約

ハウサ語は主要なチャド言語であり、アフリカの 1 億人以上が話しています。
ただし、計算言語学の観点からは、自然言語処理 (NLP) タスクをサポートするためのリソースが限られているため、低リソース言語とみなされます。
オンライン プラットフォームは多くの場合、攻撃的で脅迫的な言葉の使用につながる可能性のある社会的交流を促進しますが、ハウサ語向けに設計された検出システムがないために検出されない可能性があります。
この研究は、(1) ネットいじめ関連の問題を調査するために 2 つのユーザー調査 (n=308) を実施すること、(2) ハウサ語で関連する下流タスクをサポートするために攻撃的で脅迫的なデータセットの最初のセットを収集し、注釈を付けることによって、この問題に対処することを目的としました。
3) 攻撃的および脅迫的なコンテンツにフラグを立てる検出システムの開発、(4) ハウサ語の攻撃的および脅迫的な用語を検出する際の検出システムと Google ベースの翻訳エンジンの有効性の評価。
特に宗教や政治について議論する場合、攻撃的で脅迫的なコンテンツが非常に一般的であることがわかりました。
当社の検出システムは、攻撃的で脅迫的なコンテンツの 70% 以上を検出できましたが、その多くは Google の翻訳エンジンによって誤訳されました。
私たちはこれを、攻撃的および脅迫的なコンテンツとハウサ語の慣用表現との間の微妙な関係に起因すると考えています。
より効果的な検出システムを開発するために、さまざまな関係者が地域の慣習や人口統計の理解に参加することをお勧めします。
これらの洞察は、安全で包括的なオンライン環境を作成するための的を絞ったモデレーション戦略を実装するために不可欠です。

要約(オリジナル)

Hausa is a major Chadic language, spoken by over 100 million people in Africa. However, from a computational linguistic perspective, it is considered a low-resource language, with limited resources to support Natural Language Processing (NLP) tasks. Online platforms often facilitate social interactions that can lead to the use of offensive and threatening language, which can go undetected due to the lack of detection systems designed for Hausa. This study aimed to address this issue by (1) conducting two user studies (n=308) to investigate cyberbullying-related issues, (2) collecting and annotating the first set of offensive and threatening datasets to support relevant downstream tasks in Hausa, (3) developing a detection system to flag offensive and threatening content, and (4) evaluating the detection system and the efficacy of the Google-based translation engine in detecting offensive and threatening terms in Hausa. We found that offensive and threatening content is quite common, particularly when discussing religion and politics. Our detection system was able to detect more than 70% of offensive and threatening content, although many of these were mistranslated by Google’s translation engine. We attribute this to the subtle relationship between offensive and threatening content and idiomatic expressions in the Hausa language. We recommend that diverse stakeholders participate in understanding local conventions and demographics in order to develop a more effective detection system. These insights are essential for implementing targeted moderation strategies to create a safe and inclusive online environment.

arxiv情報

著者 Fatima Muhammad Adam,Abubakar Yakubu Zandam,Isa Inuwa-Dutse
発行日 2023-11-17 14:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク