要約
私たちは、韻律機能を伝える際にどの韻律特徴が最も重要であるかを調査します。
我々は、発話ペア間の語用上の類似性に対する人間の認識を予測する問題を使用して、さまざまなタイプの韻律特徴の有用性を評価します。
たとえば、継続時間に関連する特徴はピッチに関連する特徴よりも重要であり、発話の最初の特徴は発話の最後の特徴よりも重要であることがわかります。
さらに、失敗分析は、ピッチ特徴を使用したモデリングが重要な語用論的機能を処理できないことが多いことを示し、鼻声やビブラートを含む、一般に無視されているいくつかの音響および韻律特徴が語用論的に重要であることを示唆しています。
これらの発見は、韻律に関する将来の基礎研究を導き、音声合成の評価やその他のアプリケーションを改善する方法を示唆する可能性があります。
要約(オリジナル)
We investigate which prosodic features matter most in conveying prosodic functions. We use the problem of predicting human perceptions of pragmatic similarity among utterance pairs to evaluate the utility of prosodic features of different types. We find, for example, that duration-related features are more important than pitch-related features, and that utterance-initial features are more important than utterance-final features. Further, failure analysis indicates that modeling using pitch features only often fails to handle important pragmatic functions, and suggests that several generally-neglected acoustic and prosodic features are pragmatically significant, including nasality and vibrato. These findings can guide future basic research in prosody, and suggest how to improve speech synthesis evaluation, among other applications.
arxiv情報
著者 | Nigel G. Ward,Divette Marco,Olac Fuentes |
発行日 | 2024-08-23 17:29:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google