Design, construction and evaluation of emotional multimodal pathological speech database

要約

利用可能な感情病理学データベースの欠如は、構音障害患者の感情表現状態を研究する際の重要な障害の 1 つです。
本論文では,多視点情報を含む初の中国の多峰性感情病理学的音声データベースを構築した。
これには、さまざまな程度の運動性構音障害を持つ 29 人の対照と 39 人の患者が含まれており、喜び、悲しみ、怒り、中立的な感情を表現しています。
すべての感情的なスピーチは、開発された WeChat ミニプログラムによって、明瞭さ、種類、および離散次元の感情についてラベル付けされました。
この主観的分析は、感情識別の正確さ、音声明瞭度、価性覚醒の空間分布、およびSCL-90と疾患の重症度の間の相関関係から正当化されます。
自動認識は音声と声門データに対してテストされ、平均精度は音声では対照で78%、患者で60%であった一方、声門データでは対照で51%、患者で38%であり、感情表現に対する疾患の影響が示されている。

要約(オリジナル)

The lack of an available emotion pathology database is one of the key obstacles in studying the emotion expression status of patients with dysarthria. The first Chinese multimodal emotional pathological speech database containing multi-perspective information is constructed in this paper. It includes 29 controls and 39 patients with different degrees of motor dysarthria, expressing happy, sad, angry and neutral emotions. All emotional speech was labeled for intelligibility, types and discrete dimensional emotions by developed WeChat mini-program. The subjective analysis justifies from emotion discrimination accuracy, speech intelligibility, valence-arousal spatial distribution, and correlation between SCL-90 and disease severity. The automatic recognition tested on speech and glottal data, with average accuracy of 78% for controls and 60% for patients in audio, while 51% for controls and 38% for patients in glottal data, indicating an influence of the disease on emotional expression.

arxiv情報

著者 Ting Zhu,Shufei Duan,Huizhi Liang,Wei Zhang
発行日 2023-12-14 14:43:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS, eess.SP パーマリンク