要約
自動音声認識 (ASR) システムは、音声データの社会言語的変動に敏感であることが知られており、性別が重要な役割を果たします。
これにより、主にトレーニング データ内で後者のグループが過小評価されることが原因で、男性話者と女性話者の間で認識精度に差が生じる可能性があります。
ハイブリッド ASR モデルのコンテキストでは、いくつかの解決策が提案されていますが、エンドツーエンドのニューラル アーキテクチャでは、ジェンダー バイアスの問題は明示的に対処されていません。
このギャップを埋めるために、基本周波数 (f0) とフォルマントを操作するデータ拡張手法を提案します。
この手法は、過小評価されている女性話者の声をシミュレートすることで性別間のデータの不均衡を軽減し、各性別グループ内のばらつきを増大させます。
自発的な英語の発話に関する実験では、私たちの技術により、女性話者の発話に対して相対的な WER が最大 9.87% 向上し、最も少ない f0 範囲ではより大きなゲインが得られることが示されています。
要約(オリジナル)
Automatic speech recognition (ASR) systems are known to be sensitive to the sociolinguistic variability of speech data, in which gender plays a crucial role. This can result in disparities in recognition accuracy between male and female speakers, primarily due to the under-representation of the latter group in the training data. While in the context of hybrid ASR models several solutions have been proposed, the gender bias issue has not been explicitly addressed in end-to-end neural architectures. To fill this gap, we propose a data augmentation technique that manipulates the fundamental frequency (f0) and formants. This technique reduces the data unbalance among genders by simulating voices of the under-represented female speakers and increases the variability within each gender group. Experiments on spontaneous English speech show that our technique yields a relative WER improvement up to 9.87% for utterances by female speakers, with larger gains for the least-represented f0 ranges.
arxiv情報
著者 | Dennis Fucci,Marco Gaido,Matteo Negri,Mauro Cettolo,Luisa Bentivogli |
発行日 | 2023-10-10 12:55:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google