The complementary roles of non-verbal cues for Robust Pronunciation Assessment

要約

発音評価システムの研究は、非ネイティブ (L2) 音声の音声および音韻論的側面を利用することに焦点を当てており、非言語的手がかりの中に隠された豊富な情報層が無視されることがよくあります。
本研究では、新しい発音評価フレームワークIntraVerbalPAを提案しました。
このフレームワークには、従来の音声および音素表現に加えて、きめの細かいフレームレベルと抽象的な発話レベルの非言語キューの両方が革新的に組み込まれています。
さらに、フレームワーク内で持続時間の分布を効果的にモデル化するために、「音素持続時間の良さ」メトリックを導入します。
私たちの結果は、提案された IntraVerbalPA フレームワークとその個々のコンポーネントの有効性を検証し、既存の研究成果と同等またはそれを上回るパフォーマンスをもたらしました。

要約(オリジナル)

Research on pronunciation assessment systems focuses on utilizing phonetic and phonological aspects of non-native (L2) speech, often neglecting the rich layer of information hidden within the non-verbal cues. In this study, we proposed a novel pronunciation assessment framework, IntraVerbalPA. % The framework innovatively incorporates both fine-grained frame- and abstract utterance-level non-verbal cues, alongside the conventional speech and phoneme representations. Additionally, we introduce ”Goodness of phonemic-duration” metric to effectively model duration distribution within the framework. Our results validate the effectiveness of the proposed IntraVerbalPA framework and its individual components, yielding performance that either matches or outperforms existing research works.

arxiv情報

著者 Yassine El Kheir,Shammur Absar Chowdhury,Ahmed Ali
発行日 2023-09-14 14:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク