Think Outside the Data: Colonial Biases and Systemic Issues in Automated Moderation Pipelines for Low-Resource Languages

要約

ほとんどのソーシャルメディアユーザーは、グローバルサウスの英語を講演していない国から来ています。
これらの地域での有害なコンテンツの広範な有病率にもかかわらず、現在の節度システムはそこで話されている低リソース言語で繰り返し闘っています。
この作業では、低リソース言語の節度ツールを構築する際にAIの研究者と実践者が直面する課題を調べます。
グローバルサウスからの4つの多様な低資源言語で有害なコンテンツの自動検出を専門とする22人のAI研究者と実務家との半構造化インタビューを実施しました。
これらは、南アジアのタミル語、東アフリカのスワヒリ語、北アフリカのマグレビアラビア語、南アメリカのケチュアです。
私たちの調査結果は、ソーシャルメディア企業の研究者のデータへのアクセスに対する制限は、オンラインの害を調査するためのデータセットが長い間欠けていたこれらの言語の歴史的疎外を悪化させていることを明らかにしています。
さらに、主にデータが豊富な英語向けに設計された一般的な前処理技術と言語モデルは、低リソース言語の言語の複雑さを考慮していません。
これにより、タミル語、スワヒリ語、アラビア語、Quechuaのコンテンツをモデレートすると、英語よりも形態的に豊富な重要なエラーが発生します。
調査結果に基づいて、現在の節度パイプラインの不安定性が深い体系的な不平等に根ざしており、歴史的な力の不均衡を強化し続けることを確立します。
締めくくり、低リソース言語の節度を改善するためのマルチステークホルダーのアプローチについて議論します。

要約(オリジナル)

Most social media users come from non-English speaking countries in the Global South. Despite the widespread prevalence of harmful content in these regions, current moderation systems repeatedly struggle in low-resource languages spoken there. In this work, we examine the challenges AI researchers and practitioners face when building moderation tools for low-resource languages. We conducted semi-structured interviews with 22 AI researchers and practitioners specializing in automatic detection of harmful content in four diverse low-resource languages from the Global South. These are: Tamil from South Asia, Swahili from East Africa, Maghrebi Arabic from North Africa, and Quechua from South America. Our findings reveal that social media companies’ restrictions on researchers’ access to data exacerbate the historical marginalization of these languages, which have long lacked datasets for studying online harms. Moreover, common preprocessing techniques and language models, predominantly designed for data-rich English, fail to account for the linguistic complexity of low-resource languages. This leads to critical errors when moderating content in Tamil, Swahili, Arabic, and Quechua, which are morphologically richer than English. Based on our findings, we establish that the precarities in current moderation pipelines are rooted in deep systemic inequities and continue to reinforce historical power imbalances. We conclude by discussing multi-stakeholder approaches to improve moderation for low-resource languages.

arxiv情報

著者 Farhana Shahid,Mona Elswah,Aditya Vashistha
発行日 2025-01-23 17:01:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC パーマリンク