NeuroVoz: a Castillian Spanish corpus of parkinsonian speech

要約

音声分析によるパーキンソン病(PD)診断の進歩は、公的に利用可能な多様な言語データセットの顕著な欠如によって妨げられており、既存の研究の再現性とさらなる調査が制限されています。
このギャップに対応して、我々は、カスティーリャ系スペイン語を母語とする 108 人の包括的なコーパスを紹介します。このコーパスは、55 人の健康な対照者と PD と診断された 53 人で構成されており、全員が薬物療法を受けており、投薬が最適化された状態で記録されています。
このユニークなデータセットは、スペイン語の 5 つの母音の持続発声、発声発声テスト、16 回の聞き取り反復発話、自由独白など、幅広い音声タスクを特徴としています。
このデータセットは、聞いて繰り返すタスクを専門家が手動で文字起こしすることによって正確さと信頼性を強調し、モノローグの自動文字起こしに Whisper を利用しているため、パーキンソン病の音声の最も完全な公開コーパスであり、カスティーリャスペイン語では初のものとなっています。
NeuroVoz は、参加者あたり平均 26.88 ドル、午後 3.35 ドルの録音となる 2,903 の音声録音で構成されており、PD がスピーチに及ぼす影響を科学的に調査するための実質的なリソースを提供します。
このデータセットはすでにいくつかの研究を裏付けており、PD 音声パターン識別で 89% のベンチマーク精度を達成し、PD に起因する顕著な音声変化を示しています。
これらの進歩にもかかわらず、言語に依存しないパーキンソン病の発話パターンの身体横断分析を実施するという広範な課題は、依然として将来の研究の余地がある。
この貢献は、PD 音声分析リソースの重大な空白を埋めるだけでなく、神経変性疾患の診断ツールとして音声を活用する世界の研究コミュニティに新しい標準を設定します。

要約(オリジナル)

The advancement of Parkinson’s Disease (PD) diagnosis through speech analysis is hindered by a notable lack of publicly available, diverse language datasets, limiting the reproducibility and further exploration of existing research. In response to this gap, we introduce a comprehensive corpus from 108 native Castilian Spanish speakers, comprising 55 healthy controls and 53 individuals diagnosed with PD, all of whom were under pharmacological treatment and recorded in their medication-optimized state. This unique dataset features a wide array of speech tasks, including sustained phonation of the five Spanish vowels, diadochokinetic tests, 16 listen-and-repeat utterances, and free monologues. The dataset emphasizes accuracy and reliability through specialist manual transcriptions of the listen-and-repeat tasks and utilizes Whisper for automated monologue transcriptions, making it the most complete public corpus of Parkinsonian speech, and the first in Castillian Spanish. NeuroVoz is composed by 2,903 audio recordings averaging $26.88 \pm 3.35$ recordings per participant, offering a substantial resource for the scientific exploration of PD’s impact on speech. This dataset has already underpinned several studies, achieving a benchmark accuracy of 89% in PD speech pattern identification, indicating marked speech alterations attributable to PD. Despite these advances, the broader challenge of conducting a language-agnostic, cross-corpora analysis of Parkinsonian speech patterns remains an open area for future research. This contribution not only fills a critical void in PD speech analysis resources but also sets a new standard for the global research community in leveraging speech as a diagnostic tool for neurodegenerative diseases.

arxiv情報

著者 Janaína Mendes-Laureano,Jorge A. Gómez-García,Alejandro Guerrero-López,Elisa Luque-Buzo,Julián D. Arias-Londoño,Francisco J. Grandas-Pérez,Juan I. Godino-Llorente
発行日 2024-03-06 11:08:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク