Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss

要約

コンピューター支援発音トレーニング(CAPT)システムの構築における事前の取り組みは、しばしば自動発音評価(APA)および誤発音検出と診断(MDD)を別々の面として扱います。
代わりに、非ネイティブの言語学習者が行った正確な音声発音エラーの特定に焦点を当てています。
ただし、一般的に、本格的なCAPTシステムは、両方の機能を同時に効率的に実行する必要があることが予想されます。
この急増する需要に応えて、この作業では、最初にhmambaを提案します。これは、APAとMDDのタスクを並行してシームレスに統合する新しいキャプテンアプローチです。
さらに、MDD専用に調整された新しい損失関数、分離されたクロスエントロピー損失(dexent)を導入し、誤った携帯電話を検出するためのより良い監視学習を促進し、それによって全体的なパフォーマンスを向上させます。
Speechocean762ベンチマークデータセットの包括的な経験的結果のセットは、APAに対するアプローチの有効性を示しています。
特に、提案されているアプローチは、強力なベースラインでMDDパフォーマンスの大幅な改善をもたらし、63.85%のF1スコアを達成しています。
私たちのコードはhttps://github.com/fuann/hmambaで入手できます

要約(オリジナル)

Prior efforts in building computer-assisted pronunciation training (CAPT) systems often treat automatic pronunciation assessment (APA) and mispronunciation detection and diagnosis (MDD) as separate fronts: the former aims to provide multiple pronunciation aspect scores across diverse linguistic levels, while the latter focuses instead on pinpointing the precise phonetic pronunciation errors made by non-native language learners. However, it is generally expected that a full-fledged CAPT system should perform both functionalities simultaneously and efficiently. In response to this surging demand, we in this work first propose HMamba, a novel CAPT approach that seamlessly integrates APA and MDD tasks in parallel. In addition, we introduce a novel loss function, decoupled cross-entropy loss (deXent), specifically tailored for MDD to facilitate better-supervised learning for detecting mispronounced phones, thereby enhancing overall performance. A comprehensive set of empirical results on the speechocean762 benchmark dataset demonstrates the effectiveness of our approach on APA. Notably, our proposed approach also yields a considerable improvement in MDD performance over a strong baseline, achieving an F1-score of 63.85%. Our codes are made available at https://github.com/Fuann/hmamba

arxiv情報

著者 Fu-An Chao,Berlin Chen
発行日 2025-02-11 14:17:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク