要約
子どもの音声認識は、データの不足(特に英語以外の言語)とこのタスクの具体的な困難により、依然として未発達の研究分野です。
以前の研究で子供の音声認識のためのさまざまなアーキテクチャを探求した後、この記事では、最近の自己監視モデルに取り組んでいます。
最初にWAV2VEC 2.0、フランスの子供の発話の音素認識に適応したHubertおよびWAVLMモデルを比較し、それらの最高のWAVLM Base+を使用して実験を続けます。
次に、子どものスピーチを微調整中に変圧器ブロックを解除することでさらに適応します。これにより、パフォーマンスが大幅に向上し、ベースモデルであるトランス+CTCを大幅に上回ります。
最後に、アプリケーションの実際の条件下でこれら2つのモデルの動作を詳細に検討し、WAVLMベース+がさまざまな読み取りタスクとノイズレベルにより堅牢であることを示します。
インデックスの用語:音声認識、子どもの発話、自己教師の学習
要約(オリジナル)
Child speech recognition is still an underdeveloped area of research due to the lack of data (especially on non-English languages) and the specific difficulties of this task. Having explored various architectures for child speech recognition in previous work, in this article we tackle recent self-supervised models. We first compare wav2vec 2.0, HuBERT and WavLM models adapted to phoneme recognition in French child speech, and continue our experiments with the best of them, WavLM base+. We then further adapt it by unfreezing its transformer blocks during fine-tuning on child speech, which greatly improves its performance and makes it significantly outperform our base model, a Transformer+CTC. Finally, we study in detail the behaviour of these two models under the real conditions of our application, and show that WavLM base+ is more robust to various reading tasks and noise levels. Index Terms: speech recognition, child speech, self-supervised learning
arxiv情報
著者 | Lucas Block Medin,Thomas Pellegrini,Lucile Gelin |
発行日 | 2025-03-06 18:57:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google