Children’s Speech Recognition through Discrete Token Enhancement

要約

子供の音声認識は、主に公的に利用可能なデータが不足しているため、リソースが少ないタスクであると考えられています。
このようなデータ不足には、高価なデータ収集と注釈のプロセス、データのプライバシーなど、いくつかの理由があります。
音声信号を、機密情報は含まないが言語情報と音響情報の両方をキャプチャする個別のトークンに変換することは、プライバシーの問題の解決策となる可能性があります。
この研究では、ASR のパフォーマンスを大幅に低下させることなく、離散音声トークンを入力として子供の音声認識システムに統合する方法を調査します。
さらに、これらの個別のラベルを作成するためのシングルビュー戦略とマルチビュー戦略を検討しました。
さらに、未知のドメインとキリスト降誕のデータセットを使用して、モデルの一般化機能をテストしました。
結果は、子の離散トークン ASR がパラメータを約 83% 削減しながらほぼ同等のパフォーマンスを達成することを明らかにしました。

要約(オリジナル)

Children’s speech recognition is considered a low-resource task mainly due to the lack of publicly available data. There are several reasons for such data scarcity, including expensive data collection and annotation processes, and data privacy, among others. Transforming speech signals into discrete tokens that do not carry sensitive information but capture both linguistic and acoustic information could be a solution for privacy concerns. In this study, we investigate the integration of discrete speech tokens into children’s speech recognition systems as input without significantly degrading the ASR performance. Additionally, we explored single-view and multi-view strategies for creating these discrete labels. Furthermore, we tested the models for generalization capabilities with unseen domain and nativity dataset. Results reveal that the discrete token ASR for children achieves nearly equivalent performance with an approximate 83% reduction in parameters.

arxiv情報

著者 Vrunda N. Sukhadia,Shammur Absar Chowdhury
発行日 2024-06-24 15:31:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク