Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment

要約

自動発音評価 (APA) は、ある言語における第 2 言語 (L2) 学習者の発音熟練度を数値化します。
APA への一般的なアプローチは通常、熟練度レベルの予測に平均二乗誤差 (MSE) 損失などの回帰損失関数でトレーニングされたニューラル モデルを活用します。
ほとんどの回帰モデルは特徴空間内の習熟度レベルの順序性を効果的に捉えることができますが、同じ習熟度レベルを持つ異なる音素カテゴリが必然的に互いに近くに配置され、音素を区別する情報が保持されなくなるという主な障害に直面しています。
このため、回帰ベースの APA モデルをトレーニングするための音素コントラスト順序 (PCO) 損失を考案しました。これは、回帰ターゲット出力の順序関係を考慮しながら、音素カテゴリ間のより良い音素の区別を維持することを目的としています。
具体的には、MSE 損失に音素固有の正則化機能を導入します。これにより、異なる音素カテゴリの特徴表現が遠く離れていることが奨励され、同時に重み付けされた距離によって同じ音素カテゴリに属する​​表現が近づけられます。
speechocean762 ベンチマーク データセットに対して実行された一連の広範な実験は、いくつかの既存の最先端モデルと比較して、私たちのモデルの実現可能性と有効性を示唆しています。

要約(オリジナル)

Automatic pronunciation assessment (APA) manages to quantify the pronunciation proficiency of a second language (L2) learner in a language. Prevailing approaches to APA normally leverage neural models trained with a regression loss function, such as the mean-squared error (MSE) loss, for proficiency level prediction. Despite most regression models can effectively capture the ordinality of proficiency levels in the feature space, they are confronted with a primary obstacle that different phoneme categories with the same proficiency level are inevitably forced to be close to each other, retaining less phoneme-discriminative information. On account of this, we devise a phonemic contrast ordinal (PCO) loss for training regression-based APA models, which aims to preserve better phonemic distinctions between phoneme categories meanwhile considering ordinal relationships of the regression target output. Specifically, we introduce a phoneme-distinct regularizer into the MSE loss, which encourages feature representations of different phoneme categories to be far apart while simultaneously pulling closer the representations belonging to the same phoneme category by means of weighted distances. An extensive set of experiments carried out on the speechocean762 benchmark dataset suggest the feasibility and effectiveness of our model in relation to some existing state-of-the-art models.

arxiv情報

著者 Bi-Cheng Yan,Hsin-Wei Wang,Yi-Cheng Wang,Jiun-Ting Li,Chi-Han Lin,Berlin Chen
発行日 2023-10-04 06:51:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク