AUTALIC: A Dataset for Anti-AUTistic Ableist Language In Context

要約

自閉症と障害者に対する理解が深まるにつれて、自閉症の人に対する障害者向けの言語に対する理解も深まります。
このような言語は、その微妙で文脈に依存する性質のため、NLP 研究において重大な課題を引き起こします。
しかし、既存の NLP ツールではその微妙な表現を捉えることができないことが多く、反自閉症障害者言語の検出は依然として研究が進んでいません。
我々は、文脈内での反自閉症障害者言語の検出に特化した最初のベンチマーク データセットである AUTALIC を紹介し、この分野における大きなギャップに対処します。
このデータセットは、Reddit から収集された 2,400 件の自閉症関連の文で構成されており、周囲のコンテキストを伴っており、神経多様性の背景を持つ訓練を受けた専門家によって注釈が付けられています。
私たちの包括的な評価により、最先端の LLM を含む現在の言語モデルは、反自閉症的障害を確実に特定し、人間の判断と一致させるのに苦労していることが明らかになり、この領域における限界が強調されています。
私たちは AUTALIC を個々の注釈とともに一般に公開しています。これは、障害者差別、神経多様性に取り組んでいる研究者、また注釈付けタスクにおける意見の相違を研究している研究者にとって貴重なリソースとして役立ちます。
このデータセットは、多様な視点をより適切に反映する、より包括的でコンテキストを認識した NLP システムの開発に向けた重要なステップとして機能します。

要約(オリジナル)

As our understanding of autism and ableism continues to increase, so does our understanding of ableist language towards autistic people. Such language poses a significant challenge in NLP research due to its subtle and context-dependent nature. Yet, detecting anti-autistic ableist language remains underexplored, with existing NLP tools often failing to capture its nuanced expressions. We present AUTALIC, the first benchmark dataset dedicated to the detection of anti-autistic ableist language in context, addressing a significant gap in the field. The dataset comprises 2,400 autism-related sentences collected from Reddit, accompanied by surrounding context, and is annotated by trained experts with backgrounds in neurodiversity. Our comprehensive evaluation reveals that current language models, including state-of-the-art LLMs, struggle to reliably identify anti-autistic ableism and align with human judgments, underscoring their limitations in this domain. We publicly release AUTALIC along with the individual annotations which serve as a valuable resource to researchers working on ableism, neurodiversity, and also studying disagreements in annotation tasks. This dataset serves as a crucial step towards developing more inclusive and context-aware NLP systems that better reflect diverse perspectives.

arxiv情報

著者 Naba Rizvi,Harper Strickland,Daniel Gitelman,Tristan Cooper,Alexis Morales-Flores,Michael Golden,Aekta Kallepalli,Akshat Alurkar,Haaset Owens,Saleha Ahmedi,Isha Khirwadkar,Imani Munyaka,Nedjma Ousidhoum
発行日 2024-11-21 16:43:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク