要約
このペーパーでは、「非ネイティブチルドレンの自動音声評価」(NOCASA) – IEEE MLSP 2025会議のデータコンテストの一部を紹介します。
Nocasaは参加者に挑戦し、Gameified発音トレーニングアプリの一部として、若い第二言語(L2)学習者の単一単語発音を評価できる新しいシステムを開発するように挑戦します。
これを達成するには、いくつかの問題に対処する必要があります。最も顕著なのは、利用可能なトレーニングデータの限られた性質と、発音レベルのカテゴリ間で非常に不均衡な分布です。
開発を促進するために、1〜5スケール(ゲームで与えられるべき星の数)で205個の異なるノルウェーの単語を発音しようとする44人のスピーカーからの10,334の録音を含む擬似匿名のトレーニングデータ(Teflonnorl2)を提供します。
データに加えて、すでに訓練された2つのシステムが公式ベースラインとしてリリースされます。Compare_16アコースティック機能セットとマルチタスクWAV2VEC 2.0モデルでトレーニングされたSVM分類器です。
後者は、36.37%の加重平均リコール(UAR)で、チャレンジテストセットで最高のパフォーマンスを実現します。
要約(オリジナル)
This paper presents the ‘Non-native Children’s Automatic Speech Assessment’ (NOCASA) – a data competition part of the IEEE MLSP 2025 conference. NOCASA challenges participants to develop new systems that can assess single-word pronunciations of young second language (L2) learners as part of a gamified pronunciation training app. To achieve this, several issues must be addressed, most notably the limited nature of available training data and the highly unbalanced distribution among the pronunciation level categories. To expedite the development, we provide a pseudo-anonymized training data (TeflonNorL2), containing 10,334 recordings from 44 speakers attempting to pronounce 205 distinct Norwegian words, human-rated on a 1 to 5 scale (number of stars that should be given in the game). In addition to the data, two already trained systems are released as official baselines: an SVM classifier trained on the ComParE_16 acoustic feature set and a multi-task wav2vec 2.0 model. The latter achieves the best performance on the challenge test set, with an unweighted average recall (UAR) of 36.37%.
arxiv情報
著者 | Yaroslav Getman,Tamás Grósz,Mikko Kurimo,Giampiero Salvi |
発行日 | 2025-04-29 11:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google