要約
教師なし自動音声認識 (ASR) は、音声とテキストのペアのデータを監視せずに、音声信号とそれに対応するテキスト転写の間のマッピングを学習することを目的としています。
音声信号内の単語/音素は、可変長で境界が不明な音声信号のセグメントによって表されます。このセグメント構造により、特にデータのペアがない場合、音声とテキストの間のマッピングの学習が困難になります。
この論文では、教師なし ASR の反復トレーニングによる強化学習境界セグメンテーション REBORN を提案します。
REBORN は、(1) 音声信号内の分節構造の境界を予測するセグメンテーション モデルのトレーニングと、(2) 音素転写を予測するためのセグメンテーション モデルによってセグメント化された音声特徴を入力とする音素予測モデルのトレーニングを交互に行います。
セグメンテーション モデルをトレーニングするための教師付きデータが利用できないため、強化学習を使用してセグメンテーション モデルをトレーニングし、より低い混乱度の音素シーケンス予測を生成するセグメンテーションを優先します。
私たちは広範な実験を実施し、同じ設定の下で、LibriSpeech、TIMIT、および多言語 LibriSpeech の英語以外の 5 つの言語において、REBORN が以前のすべての教師なし ASR モデルよりも優れたパフォーマンスを発揮することを発見しました。
REBORN によって学習された境界が教師なし ASR のパフォーマンスを向上させる理由を包括的に分析します。
要約(オリジナル)
Unsupervised automatic speech recognition (ASR) aims to learn the mapping between the speech signal and its corresponding textual transcription without the supervision of paired speech-text data. A word/phoneme in the speech signal is represented by a segment of speech signal with variable length and unknown boundary, and this segmental structure makes learning the mapping between speech and text challenging, especially without paired data. In this paper, we propose REBORN,Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR. REBORN alternates between (1) training a segmentation model that predicts the boundaries of the segmental structures in speech signals and (2) training the phoneme prediction model, whose input is the speech feature segmented by the segmentation model, to predict a phoneme transcription. Since supervised data for training the segmentation model is not available, we use reinforcement learning to train the segmentation model to favor segmentations that yield phoneme sequence predictions with a lower perplexity. We conduct extensive experiments and find that under the same setting, REBORN outperforms all prior unsupervised ASR models on LibriSpeech, TIMIT, and five non-English languages in Multilingual LibriSpeech. We comprehensively analyze why the boundaries learned by REBORN improve the unsupervised ASR performance.
arxiv情報
著者 | Liang-Hsuan Tseng,En-Pei Hu,Cheng-Han Chiang,Yuan Tseng,Hung-yi Lee,Lin-shan Lee,Shao-Hua Sun |
発行日 | 2024-05-28 17:19:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google