要約
この研究では、人口統計の従来の調査を超えて、性別全体の自動音声認識(ASR)システムの公平性とパフォーマンスに影響を与える要因を調査しています。
Librispeech DatasetとWhisper Smallモデルを使用して、トレーニングデータの性別表現ごとにパフォーマンスがどのように変化するかを分析します。
私たちの調査結果は、トレーニングデータにおける性別比とASRパフォーマンスの間の複雑な相互作用を示唆しています。
最適な公平性は、単純な50-50分割ではなく、特定の性別分布で発生します。
さらに、我々の調査結果は、ピッチの変動などの要因がASRの精度に大きく影響する可能性があることを示唆しています。
この研究は、ASRシステムのバイアスのより深い理解に貢献し、性別バイアスの緩和における慎重にキュレーションされたトレーニングデータの重要性を強調しています。
要約(オリジナル)
This study investigates factors influencing Automatic Speech Recognition (ASR) systems’ fairness and performance across genders, beyond the conventional examination of demographics. Using the LibriSpeech dataset and the Whisper small model, we analyze how performance varies across different gender representations in training data. Our findings suggest a complex interplay between the gender ratio in training data and ASR performance. Optimal fairness occurs at specific gender distributions rather than a simple 50-50 split. Furthermore, our findings suggest that factors like pitch variability can significantly affect ASR accuracy. This research contributes to a deeper understanding of biases in ASR systems, highlighting the importance of carefully curated training data in mitigating gender bias.
arxiv情報
著者 | Hend ElGhazaly,Bahman Mirheidari,Nafise Sadat Moosavi,Heidi Christensen |
発行日 | 2025-02-25 18:29:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google