FedNST: Federated Noisy Student Training for Automatic Speech Recognition

要約

Federated Learning (FL) は、分散システムにおいて、ユーザーデバイス(クライアント)上で最新の自動音声認識(ASR)モデルの学習を可能にし、中央サーバへのユーザー生データの送信を防止することができる。ASRのためのFLを実用化するための重要な課題は、クライアントの真実のラベルを得ることです。既存のアプローチは、クライアントが自分の発話を手動で書き起こすことに依存しており、大規模な学習コーパスを取得することは現実的ではありません。そこで、本論文では、半教師付き学習を用いて、ラベルのないユーザデータを活用する手法を提案する。この目的のために、我々はFedNSTと呼ばれる新しいFederated ASR手法を提案し、プライベートな非標識ユーザデータを用いた分散ASRモデルのノイズの多い学生学習を実現する。我々は、非ラベル化データとラベル化データの異なる割合でモデルを訓練するなど、FedNSTの様々な側面を探求し、1173人の模擬クライアントで提案アプローチを評価します。960時間の音声データをサーバ(ラベル付き)とクライアント(ラベルなし)に等分したLibriSpeechでFedNSTを評価したところ、サーバデータのみで学習させた教師ありベースラインに比べ、相対単語誤り率(WERR)が22.5%減少することが示されました。

要約(オリジナル)

Federated Learning (FL) enables training state-of-the-art Automatic Speech Recognition (ASR) models on user devices (clients) in distributed systems, hence preventing transmission of raw user data to a central server. A key challenge facing practical adoption of FL for ASR is obtaining ground-truth labels on the clients. Existing approaches rely on clients to manually transcribe their speech, which is impractical for obtaining large training corpora. A promising alternative is using semi-/self-supervised learning approaches to leverage unlabelled user data. To this end, we propose a new Federated ASR method called FedNST for noisy student training of distributed ASR models with private unlabelled user data. We explore various facets of FedNST , such as training models with different proportions of unlabelled and labelled data, and evaluate the proposed approach on 1173 simulated clients. Evaluating FedNST on LibriSpeech, where 960 hours of speech data is split equally into server (labelled) and client (unlabelled) data, showed a 22.5% relative word error rate reduction (WERR) over a supervised baseline trained only on server data.

arxiv情報

著者 Haaris Mehmood,Agnieszka Dobrowolska,Karthikeyan Saravanan,Mete Ozay
発行日 2022-06-06 16:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DC, cs.LG, eess.AS, I.2.11 パーマリンク