Towards Unsupervised Speech Recognition Without Pronunciation Models

要約

教師あり自動音声認識 (ASR) の最近の進歩は、主に大規模な書き起こされた音声コーパスの利用可能性の増加により、目覚ましいパフォーマンスを達成しました。
ただし、ほとんどの言語には、これらのシステムを効果的にトレーニングするのに十分な、音声とテキストのペアのデータが不足しています。
この記事では、音素辞書への依存を取り除くことを提案することで、対の音声とテキストのコーパスを使用せずに ASR システムを開発するという課題に取り組みます。
私たちは、ワードレベルの教師なし ASR という新しい研究の方向性を模索します。
高頻度の英単語のみを含む精選された音声コーパスを使用することで、当社のシステムは、並列転写やオラクル単語境界なしで 20% 近い単語誤り率を達成します。
さらに、教師なし音声認識装置が音声から音声への結合とテキストからテキストへのマスクされたトークン埋め込みから出現できることを実験的に示します。
この革新的なモデルは、直接分布マッチングでトレーニングされた以前の教師なし ASR モデルのパフォーマンスを上回っています。

要約(オリジナル)

Recent advancements in supervised automatic speech recognition (ASR) have achieved remarkable performance, largely due to the growing availability of large transcribed speech corpora. However, most languages lack sufficient paired speech and text data to effectively train these systems. In this article, we tackle the challenge of developing ASR systems without paired speech and text corpora by proposing the removal of reliance on a phoneme lexicon. We explore a new research direction: word-level unsupervised ASR. Using a curated speech corpus containing only high-frequency English words, our system achieves a word error rate of nearly 20% without parallel transcripts or oracle word boundaries. Furthermore, we experimentally demonstrate that an unsupervised speech recognizer can emerge from joint speech-to-speech and text-to-text masked token-infilling. This innovative model surpasses the performance of previous unsupervised ASR models trained with direct distribution matching.

arxiv情報

著者 Junrui Ni,Liming Wang,Yang Zhang,Kaizhi Qian,Heting Gao,Mark Hasegawa-Johnson,Chang D. Yoo
発行日 2024-06-12 16:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク