Self-supervised Speech Representations Still Struggle with African American Vernacular English

要約

アフリカ系アメリカ人固有英語 (AAVE) やその他の疎外された言語変種の話者に対する ASR システムのパフォーマンスが低いことは十分に文書化された現象であり、これらの変種に対する偏見を強化する現象です。
私たちは、最近の自己教師あり学習 (SSL) 音声モデルの波が AAVE と主流アメリカ英語 (MAE) の間の ASR パフォーマンスの差を埋めることができるかどうかを調査します。
これら 2 種類のゼロショット自動音声認識 (ASR) で 4 つの SSL モデル (wav2vec 2.0、HuBERT、WavLM、および XLS-R) を評価したところ、これらのモデルが AAVE に対するパフォーマンスの偏りを永続化していることがわかりました。
さらに、このモデルでは、AAVE の音韻論的および形態統語論的な特徴がより高い発話では、単語誤り率が高くなります。
SSL 音声モデルはリソースの少ない種類の ASR を改善することに成功しましたが、SSL の事前トレーニングだけでは AAVE と MAE の間のギャップを埋めることはできない可能性があります。
私たちのコードは https://github.com/cmu-llab/s3m-aave で公開されています。

要約(オリジナル)

Underperformance of ASR systems for speakers of African American Vernacular English (AAVE) and other marginalized language varieties is a well-documented phenomenon, and one that reinforces the stigmatization of these varieties. We investigate whether or not the recent wave of Self-Supervised Learning (SSL) speech models can close the gap in ASR performance between AAVE and Mainstream American English (MAE). We evaluate four SSL models (wav2vec 2.0, HuBERT, WavLM, and XLS-R) on zero-shot Automatic Speech Recognition (ASR) for these two varieties and find that these models perpetuate the bias in performance against AAVE. Additionally, the models have higher word error rates on utterances with more phonological and morphosyntactic features of AAVE. Despite the success of SSL speech models in improving ASR for low resource varieties, SSL pre-training alone may not bridge the gap between AAVE and MAE. Our code is publicly available at https://github.com/cmu-llab/s3m-aave.

arxiv情報

著者 Kalvin Chang,Yi-Hui Chou,Jiatong Shi,Hsuan-Ming Chen,Nicole Holliday,Odette Scharenborg,David R. Mortensen
発行日 2024-08-26 13:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク