要約
最近の研究では、ペアになっていない音声とテキストのみを使用して $\textit{unsupervised}$ 自動音声認識 (ASR) システムをトレーニングできることが示されました。
既存の教師なし ASR 手法は、ラベル付きデータをトレーニングに使用できないことを前提としています。
私たちは、特定の言語にラベル付き音声がない場合でも、他の言語で使用できる $\textit{always}$ ラベル付きデータが存在すると主張します。
他の言語の文字レベル音響モデル (AM) を使用して、新しい言語で $\textit{unsupervised}$ AM をブートストラップできることを示します。
ここで、「教師なし」とは、$\textit{target}$ 言語で使用できるラベル付き音声がないことを意味します。
私たちのアプローチは 2 つの重要な要素に基づいています: (i) $\textit{other}$ 言語 AM を使用して $\textit{target}$ 言語の疑似ラベル (PL) を生成する、および (ii) これらの PL を $ で制約する
\textit{ターゲット言語モデル}$.
私たちのアプローチは Common Voice に対して効果的です。
英語 AM からスワヒリ語への転送は 18% の WER を達成します。
また、60,000 時間のラベルなし英語データではなく、800 時間のラベル付きドイツ語データを使用した LJSpeech では、文字ベースの wav2vec-U 2.0 よりも絶対 WER が 15% 優れています。
要約(オリジナル)
Recent work has shown that it is possible to train an $\textit{unsupervised}$ automatic speech recognition (ASR) system using only unpaired audio and text. Existing unsupervised ASR methods assume that no labeled data can be used for training. We argue that even if one does not have any labeled audio for a given language, there is $\textit{always}$ labeled data available for other languages. We show that it is possible to use character-level acoustic models (AMs) from other languages to bootstrap an $\textit{unsupervised}$ AM in a new language. Here, ‘unsupervised’ means no labeled audio is available for the $\textit{target}$ language. Our approach is based on two key ingredients: (i) generating pseudo-labels (PLs) of the $\textit{target}$ language using some $\textit{other}$ language AM and (ii) constraining these PLs with a $\textit{target language model}$. Our approach is effective on Common Voice: e.g. transfer of English AM to Swahili achieves 18% WER. It also outperforms character-based wav2vec-U 2.0 by 15% absolute WER on LJSpeech with 800h of labeled German data instead of 60k hours of unlabeled English data.
arxiv情報
著者 | Tatiana Likhomanenko,Loren Lugosch,Ronan Collobert |
発行日 | 2024-02-16 16:20:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google