要約
音声アクセントは、最先端の自動音声認識 (ASR) システムにとって大きな課題となります。
過小評価されているアクセント全体でのパフォーマンスの低下は、ASR の包括的な導入に対する深刻な阻害要因となっています。
この研究では、訓練可能なコードブックのセットとのクロスアテンションを使用した、エンドツーエンドの ASR システム向けの新しいアクセント適応アプローチを提案します。
これらの学習可能なコードブックはアクセント固有の情報をキャプチャし、ASR エンコーダー層内に統合されます。
モデルはアクセントのある英語の音声でトレーニングされますが、テスト データにはトレーニング中に見られなかったアクセントも含まれています。
Mozilla Common Voice の複数アクセント データセットでは、私たちが提案したアプローチが、目に見える英語のアクセント (単語誤り率の最大 $37\%$ の相対改善) だけでなく、目に見えないアクセント (最大
WER で $5\%$ の相対的な改善)。
さらに、L2Artic データセットでのゼロショット転送セットアップの利点を説明します。
また、アクセント敵対的トレーニングに基づいた他のアプローチとパフォーマンスを比較します。
要約(オリジナル)
Speech accents pose a significant challenge to state-of-the-art automatic speech recognition (ASR) systems. Degradation in performance across underrepresented accents is a severe deterrent to the inclusive adoption of ASR. In this work, we propose a novel accent adaptation approach for end-to-end ASR systems using cross-attention with a trainable set of codebooks. These learnable codebooks capture accent-specific information and are integrated within the ASR encoder layers. The model is trained on accented English speech, while the test data also contained accents which were not seen during training. On the Mozilla Common Voice multi-accented dataset, we show that our proposed approach yields significant performance gains not only on the seen English accents (up to $37\%$ relative improvement in word error rate) but also on the unseen accents (up to $5\%$ relative improvement in WER). Further, we illustrate benefits for a zero-shot transfer setup on the L2Artic dataset. We also compare the performance with other approaches based on accent adversarial training.
arxiv情報
著者 | Darshan Prabhu,Preethi Jyothi,Sriram Ganapathy,Vinit Unni |
発行日 | 2023-10-25 03:23:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google