Federated Representation Learning for Automatic Speech Recognition

要約

Federated Learning(FL)はプライバシーを保護するパラダイムであり、エッジデバイスがデータを共有することなく協調学習することを可能にする。AlexaやSiriのようなエッジデバイスは、ロバストな音声表現を学習するために利用できる、ラベル付けされていない音声データの有望なソースである。この研究では、自己教師あり学習(SSL)とFLを組み合わせることで、データのプライバシー制約を尊重した自動音声認識のための表現を学習する。ラベルなし音声データセットであるLibri-Lightの話者情報とチャプター情報を用いて、非IID話者サイロ化データ分布をシミュレートし、FedSGDを用いた対照予測符号化フレームワークでLSTMエンコーダを事前学習する。FLで事前訓練されたASRエンコーダは、中央で事前訓練されたモデルと同等の性能を発揮し、事前訓練なしと比較して12-15%の改善(WER)をもたらすことを示す。さらに、フェデレートされた事前訓練モデルを新しい言語であるフランス語に適応させ、事前訓練なしと比較して20%(WER)の改善を示す。

要約(オリジナル)

Federated Learning (FL) is a privacy-preserving paradigm, allowing edge devices to learn collaboratively without sharing data. Edge devices like Alexa and Siri are prospective sources of unlabeled audio data that can be tapped to learn robust audio representations. In this work, we bring Self-supervised Learning (SSL) and FL together to learn representations for Automatic Speech Recognition respecting data privacy constraints. We use the speaker and chapter information in the unlabeled speech dataset, Libri-Light, to simulate non-IID speaker-siloed data distributions and pre-train an LSTM encoder with the Contrastive Predictive Coding framework with FedSGD. We show that the pre-trained ASR encoder in FL performs as well as a centrally pre-trained model and produces an improvement of 12-15% (WER) compared to no pre-training. We further adapt the federated pre-trained models to a new language, French, and show a 20% (WER) improvement over no pre-training.

arxiv情報

著者 Guruprasad V Rames,Gopinath Chennupati,Milind Rao,Anit Kumar Sahu,Ariya Rastrow,Jasha Droppo
発行日 2023-08-03 20:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク