Design, construction and evaluation of emotional multimodal pathological speech database


利用可能な感情病理学データベースの欠如は、構音障害患者の感情表現状態を研究する際の重要な障害の 1 つです。
これには、さまざまな程度の運動性構音障害を持つ 29 人の対照と 39 人の患者が含まれており、喜び、悲しみ、怒り、中立的な感情を表現しています。
すべての感情的なスピーチは、開発された WeChat ミニプログラムによって、明瞭さ、種類、および離散次元の感情についてラベル付けされました。


The lack of an available emotion pathology database is one of the key obstacles in studying the emotion expression status of patients with dysarthria. The first Chinese multimodal emotional pathological speech database containing multi-perspective information is constructed in this paper. It includes 29 controls and 39 patients with different degrees of motor dysarthria, expressing happy, sad, angry and neutral emotions. All emotional speech was labeled for intelligibility, types and discrete dimensional emotions by developed WeChat mini-program. The subjective analysis justifies from emotion discrimination accuracy, speech intelligibility, valence-arousal spatial distribution, and correlation between SCL-90 and disease severity. The automatic recognition tested on speech and glottal data, with average accuracy of 78% for controls and 60% for patients in audio, while 51% for controls and 38% for patients in glottal data, indicating an influence of the disease on emotional expression.


著者 Ting Zhu,Shufei Duan,Huizhi Liang,Wei Zhang
発行日 2023-12-14 14:43:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP パーマリンク