MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

要約

自動音声発音評価の設計は、クローズド応答シナリオとオープン応答シナリオに分類でき、それぞれに長所と制限があります。
両方のシナリオで機能する機能を備えたシステムは、多様な学習ニーズに対応し、発音スキルのより正確かつ総合的な評価を提供できます。
本研究では、MultiPAと呼ばれるマルチタスク発音評価モデルを提案します。
MultiPA は、フォーマット要件が簡素化され、他のニューラル ネットワーク モデルとの互換性が向上するという点で、Kaldi ベースのシステムの代替手段となります。
以前のオープン回答システムと比較して、MultiPA は文レベルと単語レベルの両方での評価を含む、より幅広い評価を提供します。
私たちの実験結果は、MultiPA がクローズド応答シナリオで動作する場合には同等のパフォーマンスを達成し、オープン応答に直接使用するとより堅牢なパフォーマンスを維持することを示しています。

要約(オリジナル)

The design of automatic speech pronunciation assessment can be categorized into closed and open response scenarios, each with strengths and limitations. A system with the ability to function in both scenarios can cater to diverse learning needs and provide a more precise and holistic assessment of pronunciation skills. In this study, we propose a Multi-task Pronunciation Assessment model called MultiPA. MultiPA provides an alternative to Kaldi-based systems in that it has simpler format requirements and better compatibility with other neural network models. Compared with previous open response systems, MultiPA provides a wider range of evaluations, encompassing assessments at both the sentence and word-level. Our experimental results show that MultiPA achieves comparable performance when working in closed response scenarios and maintains more robust performance when directly used for open responses.

arxiv情報

著者 Yu-Wen Chen,Zhou Yu,Julia Hirschberg
発行日 2023-08-24 01:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク