A Novel Self-training Approach for Low-resource Speech Recognition

要約

この論文では、低リソース設定における自動音声認識 (ASR) の自己学習アプローチを提案します。
自己トレーニングのアプローチは、英語などの高リソース言語に対して広範囲に開発および評価されてきましたが、パンジャブ語のような低リソース言語への適用は、この言語が世界中で何百万人もの人々に話されているにもかかわらず、限定的でした。
注釈付きデータの不足により、特に低リソース言語 (パンジャブ語や M\=aori 言語など) の場合、正確な ASR システムの開発が妨げられてきました。
この問題に対処するために、ラベルのない低リソース音声に対して高精度の擬似ラベルを生成する効果的な自己トレーニング アプローチを提案します。
私たちの実験分析は、私たちのアプローチが単語誤り率を大幅に改善し、4 つの実際の音声データセットにわたるベースライン モデルと比較して 14.94% の相対的な改善を達成することを示しています。
さらに、私たちが提案したアプローチは、Common Voice Punjabi データセットで最良の結果を報告します。

要約(オリジナル)

In this paper, we propose a self-training approach for automatic speech recognition (ASR) for low-resource settings. While self-training approaches have been extensively developed and evaluated for high-resource languages such as English, their applications to low-resource languages like Punjabi have been limited, despite the language being spoken by millions globally. The scarcity of annotated data has hindered the development of accurate ASR systems, especially for low-resource languages (e.g., Punjabi and M\=aori languages). To address this issue, we propose an effective self-training approach that generates highly accurate pseudo-labels for unlabeled low-resource speech. Our experimental analysis demonstrates that our approach significantly improves word error rate, achieving a relative improvement of 14.94% compared to a baseline model across four real speech datasets. Further, our proposed approach reports the best results on the Common Voice Punjabi dataset.

arxiv情報

著者 Satwinder Singh,Feng Hou,Ruili Wang
発行日 2023-08-10 01:02:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク