How Toxicity Classifiers and Large Language Models Respond to Ableism

要約

障害者(PwD)は、オンラインで定期的に能力主義的な憎悪やマイクロアグレッションに遭遇している。オンラインプラットフォームは、オンライン上の危害を緩和するために機械学習モデルを使用しているが、これらのモデルが能力主義とどのように相互作用するかを調査する研究はほとんどない。本論文では、PwDをターゲットにした100のソーシャルメディアコメントのデータセットを作成し、160人の参加者を募り、これらのコメントがどの程度有害で健常者差別的であるかを評価・説明させた。そして、最先端の毒性分類器(TC)と大規模言語モデル(LLM)に、有害性の評価と説明を促した。分析の結果、TCとLLMは毒性をPwDよりかなり低く評価したが、LLMは健常者をPwDとほぼ同等に評価した。しかし、LLMによる健常者差別の説明は、感情的な危害を見過ごし、PwDの説明の重要な要素である具体性や文脈の認識に欠けていた。今後は、障害を考慮した毒性分類器を設計する際の課題について議論し、能力主義の検出から能力主義の解釈と説明への移行を提唱する。

要約(オリジナル)

People with disabilities (PwD) regularly encounter ableist hate and microaggressions online. While online platforms use machine learning models to moderate online harm, there is little research investigating how these models interact with ableism. In this paper, we curated a dataset of 100 social media comments targeted towards PwD, and recruited 160 participants to rate and explain how toxic and ableist these comments were. We then prompted state-of-the art toxicity classifiers (TCs) and large language models (LLMs) to rate and explain the harm. Our analysis revealed that TCs and LLMs rated toxicity significantly lower than PwD, but LLMs rated ableism generally on par with PwD. However, ableism explanations by LLMs overlooked emotional harm, and lacked specificity and acknowledgement of context, important facets of PwD explanations. Going forward, we discuss challenges in designing disability-aware toxicity classifiers, and advocate for the shift from ableism detection to ableism interpretation and explanation.

arxiv情報

著者 Mahika Phutane,Ananya Seelam,Aditya Vashistha
発行日 2024-10-04 14:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC パーマリンク