A Comprehensive Rubric for Annotating Pathological Speech

要約

ルーブリックは、音声品質評価において音声コーパスにラベルを付けるために一般的に使用されるツールですが、病的な音声のコンテキストでの応用は依然として比較的限定されています。
この研究では、音声学、流暢性、韻律など、音声品質のさまざまな側面に基づいた包括的なルーブリックを導入します。
目的は、ダウン症患者の発話内の誤りを特定するための標準化された基準を確立し、それによって自動評価システムの開発を可能にすることです。
この目的を達成するために、私たちは Prautocal コーパスを利用しました。
ルーブリックを使用してアノテーションの品質を評価するために、音声と流暢さに焦点を当てた 2 つの実験が実施されました。
音声評価については、自動セグメンテーション システムを活用し、その結果を専門の言語聴覚士によって行われた評価と関連付けて、発音の良さ (GoP) メトリクスを採用しました。
得られた相関値はそれほど高くはありませんでしたが、プラスの傾向が見られました。
流暢性の評価に関しては、wav2vec などの深層学習モデルを使用して音声特徴を抽出し、流暢性の問題の特定に重点を置いたコーパスでトレーニングされた SVM 分類器を採用して、Prautocal コーパス サンプルを分類しました。
この結果は、検出された不一致の特定の種類に応じて変動する、このような現象の評価の複雑さを浮き彫りにしました。

要約(オリジナル)

Rubrics are a commonly used tool for labeling voice corpora in speech quality assessment, although their application in the context of pathological speech remains relatively limited. In this study, we introduce a comprehensive rubric based on various dimensions of speech quality, including phonetics, fluency, and prosody. The objective is to establish standardized criteria for identifying errors within the speech of individuals with Down syndrome, thereby enabling the development of automated assessment systems. To achieve this objective, we utilized the Prautocal corpus. To assess the quality of annotations using our rubric, two experiments were conducted, focusing on phonetics and fluency. For phonetic evaluation, we employed the Goodness of Pronunciation (GoP) metric, utilizing automatic segmentation systems and correlating the results with evaluations conducted by a specialized speech therapist. While the obtained correlation values were not notably high, a positive trend was observed. In terms of fluency assessment, deep learning models like wav2vec were used to extract audio features, and we employed an SVM classifier trained on a corpus focused on identifying fluency issues to categorize Prautocal corpus samples. The outcomes highlight the complexities of evaluating such phenomena, with variability depending on the specific type of disfluency detected.

arxiv情報

著者 Mario Corrales-Astorgano,David Escudero-Mancebo,Lourdes Aguilar,Valle Flores-Lucas,Valentín Cardeñoso-Payo,Carlos Vivaracho-Pascual,César González-Ferreras
発行日 2024-04-29 16:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク