Using Data Augmentations and VTLN to Reduce Bias in Dutch End-to-End Speech Recognition Systems

要約

音声技術は、標準話者、つまり言語障害や強いアクセントのない言語を母国語とする成人にとって大幅に向上しました。
ただし、非標準または多様な話者のグループは、標準の話者との明らかなパフォーマンスの差を示し、これをバイアスと呼びます。
この取り組みでは、さまざまな年齢層やオランダ語を母国語としない人に対する偏見を減らすことを目指しています。
エンドツーエンド (E2E) ASR システムの場合、データ拡張技術として最先端の速度摂動とスペクトル拡張を使用し、解剖学的構造の違いによるスペクトルの違いを正規化する声道長正規化 (VTLN) を検討します。

データ拡張と VTLN の組み合わせにより、さまざまな多様な話者グループにわたる平均 WER とバイアスがそれぞれ 6.9% と 3.9% 減少しました。
オランダ語でトレーニングされた VTLN モデルは、北京語の児童音声のパフォーマンスの向上にも効果的であり、言語間での汎用性を示しています。

要約(オリジナル)

Speech technology has improved greatly for norm speakers, i.e., adult native speakers of a language without speech impediments or strong accents. However, non-norm or diverse speaker groups show a distinct performance gap with norm speakers, which we refer to as bias. In this work, we aim to reduce bias against different age groups and non-native speakers of Dutch. For an end-to-end (E2E) ASR system, we use state-of-the-art speed perturbation and spectral augmentation as data augmentation techniques and explore Vocal Tract Length Normalization (VTLN) to normalise for spectral differences due to differences in anatomy. The combination of data augmentation and VTLN reduced the average WER and bias across various diverse speaker groups by 6.9% and 3.9%, respectively. The VTLN model trained on Dutch was also effective in improving performance of Mandarin Chinese child speech, thus, showing generalisability across languages

arxiv情報

著者 Tanvina Patel,Odette Scharenborg
発行日 2023-07-05 03:39:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク