Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model

要約

効果的な口頭コミュニケーションの前提条件の 1 つは、特に非母語話者にとって、単語が明確に発音されることです。
単語の強勢は英語を明確かつ正確にするための鍵であり、音節の強勢の位置を間違えると誤解を招く可能性があります。
したがって、ストレスレベルを知ることは、英語話者と学習者にとって重要です。
この論文では、話されている英語の音節ごとのストレスレベルを特定するための自己注意モデルを紹介します。
ピッチレベル、強さ、持続時間、音節とその核(音節の母音)の種類など、さまざまな韻律的およびカテゴリー的特徴が調査されます。
これらの特徴は自己注意モデルに入力され、音節レベルのストレスが予測されます。
最も単純なモデルでは、さまざまなデータセットで 88% および 93% 以上の精度が得られますが、より高度なモデルではより高い精度が得られます。
私たちの研究は、自己注意モデルがストレスレベルの検出に有望である可能性があることを示唆しています。
これらのモデルは、オンライン会議や英語学習など、さまざまなシナリオに適用できます。

要約(オリジナル)

One precondition of effective oral communication is that words should be pronounced clearly, especially for non-native speakers. Word stress is the key to clear and correct English, and misplacement of syllable stress may lead to misunderstandings. Thus, knowing the stress level is important for English speakers and learners. This paper presents a self-attention model to identify the stress level for each syllable of spoken English. Various prosodic and categorical features, including the pitch level, intensity, duration and type of the syllable and its nuclei (the vowel of the syllable), are explored. These features are input to the self-attention model, and syllable-level stresses are predicted. The simplest model yields an accuracy of over 88% and 93% on different datasets, while more advanced models provide higher accuracy. Our study suggests that the self-attention model can be promising in stress-level detection. These models could be applied to various scenarios, such as online meetings and English learning.

arxiv情報

著者 Wang Weiying,Nakajima Akinori
発行日 2023-11-01 05:05:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク