Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition

要約

最新の自動音声認識 (ASR) システムは通常、数万時間以上の音声データに基づいてトレーニングされており、これが大きな成功の主な要因の 1 つです。
ただし、そのようなデータの分布は通常、共通のアクセントや典型的な音声パターンに偏っています。
その結果、これらのシステムは、非典型的なアクセントのある音声に対してはパフォーマンスが低下することがよくあります。
この論文では、過小表現されたアクセントのある音声に対しても同様に良好に機能する公平な音声認識システムのためのアクセント クラスタリングとマイニング スキームを紹介します。
アクセント認識では、教師ありアクセント データのサイズ制限を克服するために、教師ありまたは教師なし事前トレーニング、分布ロバスト最適化 (DRO)、教師なしクラスタリングという 3 つのスキームを適用しました。
3 つのスキームにより、特にバランスのとれていない小さなアクセントのある音声のアクセント認識モデルを大幅に改善できます。
提案された教師ありまたは教師なしクラスタリング スキームを使用してマイニングされたインドのアクセント音声の ASR を微調整すると、ランダムにサンプリングされた音声の微調整と比較して、それぞれ 10.0% と 5.3% の相対的な改善が示されました。

要約(オリジナル)

Modern automatic speech recognition (ASR) systems are typically trained on more than tens of thousands hours of speech data, which is one of the main factors for their great success. However, the distribution of such data is typically biased towards common accents or typical speech patterns. As a result, those systems often poorly perform on atypical accented speech. In this paper, we present accent clustering and mining schemes for fair speech recognition systems which can perform equally well on under-represented accented speech. For accent recognition, we applied three schemes to overcome limited size of supervised accent data: supervised or unsupervised pre-training, distributionally robust optimization (DRO) and unsupervised clustering. Three schemes can significantly improve the accent recognition model especially for unbalanced and small accented speech. Fine-tuning ASR on the mined Indian accent speech using the proposed supervised or unsupervised clustering schemes showed 10.0% and 5.3% relative improvements compared to fine-tuning on the randomly sampled speech, respectively.

arxiv情報

著者 Jaeyoung Kim,Han Lu,Soheil Khorram,Anshuman Tripathi,Qian Zhang,Hasim Sak
発行日 2024-08-05 16:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク