要約
大規模な言語モデルの社会的バイアスを評価するためのほとんどのリソースは、これらのバイアスの影響を受けたコミュニティからの共同設計なしで開発され、参加型アプローチはめったに含まれません。
HeSeiaは、専門開発コースで作成された46,499の文のデータセットを紹介します。
このコースには、189人のラテンアメリカの学校から370人の高校教師と5,370人の生徒が含まれていました。
既存のベンチマークとは異なり、HeSeiaは複数の人口統計軸や学校の科目にわたって交差バイアスをキャプチャします。
それは、生きた経験と教育者の教育学的専門知識を通して地元の文脈を反映しています。
教師は最小限のペアを使用して、学校の科目やコミュニティに関連するステレオタイプを表現する文を作成しました。
表現された人口統計軸という点で、および含まれる知識領域の観点からデータセットの多様性を示します。
データセットには、以前のデータセットよりも現在のLLMによって認識されていないより多くのステレオタイプが含まれていることを実証します。
HeSeiaは、教育コミュニティに基づいたバイアス評価をサポートするために利用できます。
要約(オリジナル)
Most resources for evaluating social biases in Large Language Models are developed without co-design from the communities affected by these biases, and rarely involve participatory approaches. We introduce HESEIA, a dataset of 46,499 sentences created in a professional development course. The course involved 370 high-school teachers and 5,370 students from 189 Latin-American schools. Unlike existing benchmarks, HESEIA captures intersectional biases across multiple demographic axes and school subjects. It reflects local contexts through the lived experience and pedagogical expertise of educators. Teachers used minimal pairs to create sentences that express stereotypes relevant to their school subjects and communities. We show the dataset diversity in term of demographic axes represented and also in terms of the knowledge areas included. We demonstrate that the dataset contains more stereotypes unrecognized by current LLMs than previous datasets. HESEIA is available to support bias assessments grounded in educational communities.
arxiv情報
著者 | Guido Ivetta,Marcos J. Gomez,Sofía Martinelli,Pietro Palombini,M. Emilia Echeveste,Nair Carolina Mazzeo,Beatriz Busaniche,Luciana Benotti |
発行日 | 2025-05-30 15:32:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google