要約
持続的な治療とリハビリテーションには、構音障害の音声の自動評価が不可欠です。
ただし、非定型の音声を取得することは困難であり、多くの場合、データ不足の問題につながります.
この問題に取り組むために、マルチタスク学習と組み合わせて自己教師ありモデルを使用して、構音障害の音声に対する新しい自動重症度評価方法を提案します。
Wav2vec 2.0 XLS-R は、重大度分類と補助自動音声認識 (ASR) という 2 つの異なるタスクのために共同でトレーニングされています。
ベースラインの実験では、手作りの音響特性と、SVM、MLP、XGBoost などの機械学習分類器を採用しています。
韓国の構音障害の発話QoLTデータベースで調査したところ、モデルは従来のベースライン方法よりも優れており、F1スコアの相対パーセンテージは1.25%増加しました。
さらに、提案されたモデルは、ASR ヘッドなしでトレーニングされたモデルを上回り、10.61% の相対パーセンテージの改善を達成しました。
さらに、潜在表現と正則化効果を分析することにより、マルチタスク学習が重大度分類のパフォーマンスにどのように影響するかを示します。
要約(オリジナル)
Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity classification and auxiliary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted acoustic features and machine learning classifiers such as SVM, MLP, and XGBoost. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 1.25% for F1-score. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.61% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.
arxiv情報
著者 | Eun Jung Yeo,Kwanghee Choi,Sunhee Kim,Minhwa Chung |
発行日 | 2023-03-22 19:38:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google