要約
子どものリテラシーは、個人の人生のその後の段階での人生転帰の強力な予測因子です。
これは、これらの地域のリテラシーレベルと高収入のレベルとの間のギャップを埋めるために、脆弱な低所得および中所得集団への対象となる介入の必要性を示しています。
この取り組みでは、読書評価はこれらのプログラムの有効性を測定するための重要なツールを提供し、AIはこのタスクで教育者をサポートするための信頼できる経済的ツールになります。
低リソース言語での子どもの音声のための正確な自動読み取り評価システムの開発は、データが限られていることと子供の声のユニークな音響特性により、重大な課題をもたらします。
この研究は、南アフリカで話されている言語であるXhosaに焦点を当て、子どもの音声認識能力を促進します。
Xhosaの子供向け音声サンプルで構成される新しいデータセットを提示します。
データセットはリクエストに応じて利用可能で、10語と文字が含まれています。これは、初期級読書評価(EGRA)システムの一部です。
各録音には、複数のマーカーによるオンラインで費用対効果の高いアプローチがラベル付けされており、サブサンプルは独立したEGRAレビュアーによって検証されます。
このデータセットは、3つの微調整された最先端のエンドツーエンドモデル、WAV2VEC 2.0、Hubert、およびWhisperで評価されます。
結果は、これらのモデルのパフォーマンスが、利用可能なトレーニングデータの量とバランスによって大きな影響を受ける可能性があることを示しています。これは、費用対効果の高い大規模なデータセットコレクションの基本です。
さらに、我々の実験では、利用可能なサンプルの数が制約されている場合でも、一度に複数のクラスでトレーニングすることにより、WAV2VEC 2.0のパフォーマンスが改善されることを示しています。
要約(オリジナル)
Child literacy is a strong predictor of life outcomes at the subsequent stages of an individual’s life. This points to a need for targeted interventions in vulnerable low and middle income populations to help bridge the gap between literacy levels in these regions and high income ones. In this effort, reading assessments provide an important tool to measure the effectiveness of these programs and AI can be a reliable and economical tool to support educators with this task. Developing accurate automatic reading assessment systems for child speech in low-resource languages poses significant challenges due to limited data and the unique acoustic properties of children’s voices. This study focuses on Xhosa, a language spoken in South Africa, to advance child speech recognition capabilities. We present a novel dataset composed of child speech samples in Xhosa. The dataset is available upon request and contains ten words and letters, which are part of the Early Grade Reading Assessment (EGRA) system. Each recording is labeled with an online and cost-effective approach by multiple markers and a subsample is validated by an independent EGRA reviewer. This dataset is evaluated with three fine-tuned state-of-the-art end-to-end models: wav2vec 2.0, HuBERT, and Whisper. The results indicate that the performance of these models can be significantly influenced by the amount and balancing of the available training data, which is fundamental for cost-effective large dataset collection. Furthermore, our experiments indicate that the wav2vec 2.0 performance is improved by training on multiple classes at a time, even when the number of available samples is constrained.
arxiv情報
著者 | Sergio Chevtchenko,Nikhil Navas,Rafaella Vale,Franco Ubaudi,Sipumelele Lucwaba,Cally Ardington,Soheil Afshar,Mark Antoniou,Saeed Afshar |
発行日 | 2025-06-02 07:47:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google