Everyone deserves their voice to be heard: Analyzing Predictive Gender Bias in ASR Models Applied to Dutch Speech Data

要約

最近の研究によると、Whisper などの最先端 (SotA) 自動音声認識 (ASR) システムは、さまざまな人口統計グループに不釣り合いな影響を与える予測バイアスを示すことがよくあります。
この研究は、Common Voice データセットとオランダ国立公共放送組織からのオランダ語音声データに対する Whisper モデルのパフォーマンスの差異を特定することに焦点を当てています。
私たちは、性別グループ間の単語誤り率、文字誤り率、BERT ベースの意味的類似性を分析しました。
私たちはWeertsらの道徳的枠組みを使用しました。
(2022) は、サービスの質に対する害と公平性を評価し、これらのバイアス、特に自動字幕の影響について微妙な議論を提供します。
私たちの調査結果では、すべてのモデルサイズにわたって性別グループ間で単語誤り率 (WER) に大きな差があり、統計的テストによって偏りが特定されたことが明らかになりました。

要約(オリジナル)

Recent research has shown that state-of-the-art (SotA) Automatic Speech Recognition (ASR) systems, such as Whisper, often exhibit predictive biases that disproportionately affect various demographic groups. This study focuses on identifying the performance disparities of Whisper models on Dutch speech data from the Common Voice dataset and the Dutch National Public Broadcasting organisation. We analyzed the word error rate, character error rate and a BERT-based semantic similarity across gender groups. We used the moral framework of Weerts et al. (2022) to assess quality of service harms and fairness, and to provide a nuanced discussion on the implications of these biases, particularly for automatic subtitling. Our findings reveal substantial disparities in word error rate (WER) among gender groups across all model sizes, with bias identified through statistical testing.

arxiv情報

著者 Rik Raes,Saskia Lensink,Mykola Pechenizkiy
発行日 2024-11-14 13:29:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク