Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in Ghana

要約

この論文は、ガーナの学生の口頭読解流暢性 (ORF) を評価するために大規模な音声モデルを利用した 3 つの最近の実験について報告します。
ORF は基礎的なリテラシーの確立された尺度ですが、それを評価するには通常、学生と訓練を受けた評価者との間で 1 対 1 のセッションが必要であり、このプロセスには時間と費用がかかります。
ORF の評価を自動化することは、特にクラスの規模が大きくリソースが限られているために形成的な評価が一般的ではない教育現場において、より良い読み書き指導をサポートできる可能性があります。
私たちの知る限り、この研究は、グローバル・サウスにおける ORF 評価のための大規模音声モデルの最新バージョン (Whisper V2 wav2vec2.0) の使用を調査した最初の研究の 1 つです。
Whisper V2 は、単語誤り率 13.5 で音読したガーナの学生の文字起こしを生成することがわかりました。
これは成人の発話におけるモデルの平均 WER (12.8) に近く、ほんの数年前までは子どもの発話の書き起こしにおいては最先端のものとみなされていたでしょう。
また、これらの転写を使用して完全に自動化された ORF スコアを生成すると、人間の専門採点者によって生成されたスコアと密接に一致し、相関係数は 0.96 であることもわかりました。
重要なのは、これらの結果は、無料で公開されているそのままの音声モデル (つまり、微調整なし) を使用して、代表的なデータセット (つまり、地域のアクセントを持つ生徒、実際の教室で撮影された録音) で得られたということです。
これは、大規模な音声モデルを使用して ORF を評価することは、リソースが少なく、言語的に多様な教育環境でも実装および拡張できる可能性があることを示唆しています。

要約(オリジナル)

This paper reports on a set of three recent experiments utilizing large-scale speech models to evaluate the oral reading fluency (ORF) of students in Ghana. While ORF is a well-established measure of foundational literacy, assessing it typically requires one-on-one sessions between a student and a trained evaluator, a process that is time-consuming and costly. Automating the evaluation of ORF could support better literacy instruction, particularly in education contexts where formative assessment is uncommon due to large class sizes and limited resources. To our knowledge, this research is among the first to examine the use of the most recent versions of large-scale speech models (Whisper V2 wav2vec2.0) for ORF assessment in the Global South. We find that Whisper V2 produces transcriptions of Ghanaian students reading aloud with a Word Error Rate of 13.5. This is close to the model’s average WER on adult speech (12.8) and would have been considered state-of-the-art for children’s speech transcription only a few years ago. We also find that when these transcriptions are used to produce fully automated ORF scores, they closely align with scores generated by expert human graders, with a correlation coefficient of 0.96. Importantly, these results were achieved on a representative dataset (i.e., students with regional accents, recordings taken in actual classrooms), using a free and publicly available speech model out of the box (i.e., no fine-tuning). This suggests that using large-scale speech models to assess ORF may be feasible to implement and scale in lower-resource, linguistically diverse educational contexts.

arxiv情報

著者 Owen Henkel,Hannah Horne-Robinson,Libby Hills,Bill Roberts,Joshua McGrane
発行日 2023-10-26 17:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク