Careful Whisper — leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification

要約

本論文では、音声障害の評価を支援するために、音声記録から音声異常を特定するための完全自動化アプローチを紹介する。コネクショニスト時間分類(Connectionist Temporal Classification: CTC)とエンコーダ・デコーダベースの自動音声認識モデルを組み合わせることで、豊かな音響とクリーンなトランスクリプトを生成する。次に、いくつかの自然言語処理法を適用して、これらのトランスクリプトから特徴を抽出し、健常な音声のプロトタイプを作成する。これらのプロトタイプからの基本的な距離測定は、標準的な機械学習分類器の入力特徴量として機能し、失語症者の録音と健常対照群の区別において、人間レベルの精度をもたらした。さらに、最も頻繁に発生する失語症のタイプを90%の精度で区別することができる。このパイプラインは他の疾患や言語にもそのまま適用可能であり、診断用の音声バイオマーカーを頑健に抽出できる可能性を示している。

要約(オリジナル)

This paper presents a fully automated approach for identifying speech anomalies from voice recordings to aid in the assessment of speech impairments. By combining Connectionist Temporal Classification (CTC) and encoder-decoder-based automatic speech recognition models, we generate rich acoustic and clean transcripts. We then apply several natural language processing methods to extract features from these transcripts to produce prototypes of healthy speech. Basic distance measures from these prototypes serve as input features for standard machine learning classifiers, yielding human-level accuracy for the distinction between recordings of people with aphasia and a healthy control group. Furthermore, the most frequently occurring aphasia types can be distinguished with 90% accuracy. The pipeline is directly applicable to other diseases and languages, showing promise for robustly extracting diagnostic speech biomarkers.

arxiv情報

著者 Laurin Wagner,Mario Zusag,Theresa Bloder
発行日 2023-08-02 15:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク