Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning

要約

持続的な治療とリハビリテーションには、構音障害の音声の自動評価が不可欠です。
ただし、非定型の音声を取得することは困難であり、多くの場合、データ不足の問題につながります.
この問題に取り組むために、マルチタスク学習と組み合わせて自己教師ありモデルを使用して、構音障害の音声に対する新しい自動重症度評価方法を提案します。
Wav2vec 2.0 XLS-R は、重大度分類と補助自動音声認識 (ASR) という 2 つの異なるタスクのために共同でトレーニングされています。
ベースラインの実験では、手作りの音響特性と、SVM、MLP、XGBoost などの機械学習分類器を採用しています。
韓国の構音障害の発話QoLTデータベースで調査したところ、モデルは従来のベースライン方法よりも優れており、F1スコアの相対パーセンテージは1.25%増加しました。
さらに、提案されたモデルは、ASR ヘッドなしでトレーニングされたモデルを上回り、10.61% の相対パーセンテージの改善を達成しました。
さらに、潜在表現と正則化効果を分析することにより、マルチタスク学習が重大度分類のパフォーマンスにどのように影響するかを示します。

要約(オリジナル)

Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity classification and auxiliary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted acoustic features and machine learning classifiers such as SVM, MLP, and XGBoost. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 1.25% for F1-score. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.61% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.

arxiv情報

著者 Eun Jung Yeo,Kwanghee Choi,Sunhee Kim,Minhwa Chung
発行日 2023-03-22 19:38:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク