Disentangling segmental and prosodic factors to non-native speech comprehensibility

要約

現在のアクセント変換 (AC) システムは、非ネイティブ アクセントの 2 つの主な原因である分節特性と韻律特性の絡み合いを解消しません。
非母語話者の分節チャネルおよび/または韻律チャネルを独立して操作できることは、これら 2 つのチャネルが音声の理解度と社会的態度にどのように寄与するかを定量化するために重要です。
我々は、音声の質をアクセントから分離するだけでなく、アクセントを部分的および韻律的特徴に分解するACシステムを提案します。
このシステムは、(1) ソース発話の分節特徴、(2) ターゲット発話の音声特徴、および (3) 参照発話の韻律を組み合わせたアクセント変換を生成できます。
音響埋め込みのベクトル量子化と連続した重複コードワードの除去により、システムが韻律を転送し、音声の類似性を改善できることを示します。
私たちは知覚リスニングテストを実施して、非母語音声の知覚的な理解度に対する分節的特徴と韻律の個々の寄与を定量化します。
私たちの結果は、非母語音声に関する先行研究とは対照的に、韻律よりも分節的特徴の方が理解性に大きな影響を与えることを示しています。
提案された AC システムは、分節および韻律の手がかりが非母語話に対する社会的態度にどのような影響を与えるかを研究するために使用することもできます。

要約(オリジナル)

Current accent conversion (AC) systems do not disentangle the two main sources of non-native accent: segmental and prosodic characteristics. Being able to manipulate a non-native speaker’s segmental and/or prosodic channels independently is critical to quantify how these two channels contribute to speech comprehensibility and social attitudes. We present an AC system that not only decouples voice quality from accent, but also disentangles the latter into its segmental and prosodic characteristics. The system is able to generate accent conversions that combine (1) the segmental characteristics from a source utterance, (2) the voice characteristics from a target utterance, and (3) the prosody of a reference utterance. We show that vector quantization of acoustic embeddings and removal of consecutive duplicated codewords allows the system to transfer prosody and improve voice similarity. We conduct perceptual listening tests to quantify the individual contributions of segmental features and prosody on the perceived comprehensibility of non-native speech. Our results indicate that, contrary to prior research in non-native speech, segmental features have a larger impact on comprehensibility than prosody. The proposed AC system may also be used to study how segmental and prosody cues affect social attitudes towards non-native speech.

arxiv情報

著者 Waris Quamer,Ricardo Gutierrez-Osuna
発行日 2024-08-20 16:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク