Automatic Speech Recognition of Non-Native Child Speech for Language Learning Applications

要約

ボイスボットは、特に第二言語学習の文脈において、言語スキルの発達をサポートするための新しい手段を提供しました。
ただし、ボイスボットは主に成人のネイティブスピーカーを対象としています。
私たちは、子供たちの外国語習得をサポートできるボイスボットの開発を目的として、2 つの最先端の ASR システム、Wav2Vec2.0 と Whisper AI のパフォーマンスを評価しようとしました。
私たちは、オランダ語を母国語とする子供たちとオランダ語を母国語としない子供たちの朗読と即興スピーチの成績を評価しました。
また、子供たちの発音と流暢さについての洞察を提供するために ASR テクノロジーを使用することの有用性も調査しました。
結果は、最近の事前トレーニングされた ASR トランスフォーマー ベースのモデルが、子供や非母国語の音声の困難な性質にもかかわらず、音素の発音品質に関する詳細なフィードバックを抽出できる許容可能なパフォーマンスを達成していることを示しています。

要約(オリジナル)

Voicebots have provided a new avenue for supporting the development of language skills, particularly within the context of second language learning. Voicebots, though, have largely been geared towards native adult speakers. We sought to assess the performance of two state-of-the-art ASR systems, Wav2Vec2.0 and Whisper AI, with a view to developing a voicebot that can support children acquiring a foreign language. We evaluated their performance on read and extemporaneous speech of native and non-native Dutch children. We also investigated the utility of using ASR technology to provide insight into the children’s pronunciation and fluency. The results show that recent, pre-trained ASR transformer-based models achieve acceptable performance from which detailed feedback on phoneme pronunciation quality can be extracted, despite the challenging nature of child and non-native speech.

arxiv情報

著者 Simone Wills,Yu Bai,Cristian Tejedor-Garcia,Catia Cucchiarini,Helmer Strik
発行日 2023-06-29 06:14:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク