Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment

要約

自動発音評価(APA)は、ある言語の第二言語(L2)学習者の発音習熟度を定量化するものである。APAの一般的なアプローチは、平均二乗誤差(MSE)損失などの回帰損失関数で学習したニューラルモデルを活用して習熟度を予測します。多くの回帰モデルは、特徴空間における習熟度の正規性を効果的に捉えることができるにもかかわらず、同じ習熟度の異なる音素カテゴリは必然的に互いに近接せざるを得ず、音素識別情報が少なくなるという第一の障害に直面する。そこで我々は、回帰に基づくAPAモデルの学習において、音素カテゴリー間の音素区別をよりよく保持しつつ、回帰目標出力の順序関係を考慮することを目的とした音素コントラスト順序(PCO)損失を考案する。具体的には、音素区別正則化(phoneme-distinct regularizer)をMSE損失に導入し、異なる音素カテゴリの特徴表現が離れているように促すと同時に、重み付き距離によって同じ音素カテゴリに属する表現を近づける。speeechocean762ベンチマークデータセットを用いた広範な実験により、既存の最先端モデルとの比較において、本モデルの実現可能性と有効性が示唆される。

要約(オリジナル)

Automatic pronunciation assessment (APA) manages to quantify the pronunciation proficiency of a second language (L2) learner in a language. Prevailing approaches to APA normally leverage neural models trained with a regression loss function, such as the mean-squared error (MSE) loss, for proficiency level prediction. Despite most regression models can effectively capture the ordinality of proficiency levels in the feature space, they are confronted with a primary obstacle that different phoneme categories with the same proficiency level are inevitably forced to be close to each other, retaining less phoneme-discriminative information. On account of this, we devise a phonemic contrast ordinal (PCO) loss for training regression-based APA models, which aims to preserve better phonemic distinctions between phoneme categories meanwhile considering ordinal relationships of the regression target output. Specifically, we introduce a phoneme-distinct regularizer into the MSE loss, which encourages feature representations of different phoneme categories to be far apart while simultaneously pulling closer the representations belonging to the same phoneme category by means of weighted distances. An extensive set of experiments carried out on the speechocean762 benchmark dataset suggest the feasibility and effectiveness of our model in relation to some existing state-of-the-art models.

arxiv情報

著者 Bi-Cheng Yan,Hsin-Wei Wang,Yi-Cheng Wang,Jiun-Ting Li,Chi-Han Lin,Berlin Chen
発行日 2023-10-03 07:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク