Evaluation of African American Language Bias in Natural Language Generation


私たちは、LLM がアフリカ系アメリカ人言語 (AAL) をどの程度理解しているかを、アメリカの教室で教えられる「標準」英語として推奨されている白人主流英語 (WME) の成績と比較して評価します。
私たちは、WME (または AAL) が与えられた場合にモデルが AAL (または WME) を生成するカウンターパート生成タスクと、モデルがフレーズを予測するマスク スパン予測 (MSP) タスクの 2 つのタスクについて、自動メトリクスと人間の判断を使用して LLM パフォーマンスを測定します。
私たちの貢献には次のものが含まれます。(1) 2 つの言語生成タスクに関する 6 つの事前トレーニング済みの大規模言語モデルの評価。
(2) 複数のコンテキスト (ソーシャル メディア、ヒップホップの歌詞、フォーカス グループ、および言語インタビュー) からの AAL テキストの新しいデータセットと、WME の人間による注釈付き対応物。
(3) AAL 機能の理解不足における偏見と傾向の特定を示唆するモデルのパフォーマンスのギャップの文書化。


We evaluate how well LLMs understand African American Language (AAL) in comparison to their performance on White Mainstream English (WME), the encouraged ‘standard’ form of English taught in American classrooms. We measure LLM performance using automatic metrics and human judgments for two tasks: a counterpart generation task, where a model generates AAL (or WME) given WME (or AAL), and a masked span prediction (MSP) task, where models predict a phrase that was removed from their input. Our contributions include: (1) evaluation of six pre-trained, large language models on the two language generation tasks; (2) a novel dataset of AAL text from multiple contexts (social media, hip-hop lyrics, focus groups, and linguistic interviews) with human-annotated counterparts in WME; and (3) documentation of model performance gaps that suggest bias and identification of trends in lack of understanding of AAL features.


著者 Nicholas Deas,Jessi Grieser,Shana Kleiner,Desmond Patton,Elsbeth Turcan,Kathleen McKeown
発行日 2023-05-23 17:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク