Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

要約

乱れた発話や高齢者の発話を自動認識することは、そのようなデータを大量に収集することが難しいため、現在でも非常に困難な課題となっています。
この論文では、構音障害や高齢者の音声認識のために、ドメインに適応した SSL の事前トレーニング済みモデルを TDNN および Conformer ASR システムに統合するための一連のアプローチを検討します。 a) 標準音響フロントエンドとドメインに適応した wav2vec2.0 音声表現の間の入力特徴の融合。
b) 標準音響特徴のみを使用して、および追加の wav2vec2.0 機能を使用して個別にトレーニングされた TDNN システムのフレームレベルの統合デコード。
c) ドメインに適応した wav2vec2.0 モデルを使用して再スコアリングされる TDNN/Conformer システム出力を含むマルチパス デコード。
さらに、ドメインに適応した wav2vec2.0 表現を音響-調音 (A2A) 反転に利用して、マルチモーダルな構音障害および高齢者の音声認識システムを構築します。
UASpeech 構音障害および DementiaBank Pitt 高齢者音声コーパスに対して行われた実験では、TDNN および Conformer ASR システムに統合されたドメインに適応した wav2vec2.0 モデルが、絶対値 8.22% および 3.43% (26.71% および 15.88%) という統計的に有意な WER 削減により、スタンドアロン wav2vec2.0 モデルよりも一貫して優れていることが示唆されています。
% 相対) 2 つのタスクそれぞれについて。
公表されている最も低い WER は、構音障害話者 16 人の UASpeech テスト セットと DementiaBank Pitt テスト セットでそれぞれ 22.56% (非常に低い明瞭度で 52.53%、目に見えない単語で 39.09%) と 18.17% でした。

要約(オリジナル)

Automatic recognition of disordered and elderly speech remains a highly challenging task to date due to the difficulty in collecting such data in large quantities. This paper explores a series of approaches to integrate domain adapted SSL pre-trained models into TDNN and Conformer ASR systems for dysarthric and elderly speech recognition: a) input feature fusion between standard acoustic frontends and domain adapted wav2vec2.0 speech representations; b) frame-level joint decoding of TDNN systems separately trained using standard acoustic features alone and with additional wav2vec2.0 features; and c) multi-pass decoding involving the TDNN/Conformer system outputs to be rescored using domain adapted wav2vec2.0 models. In addition, domain adapted wav2vec2.0 representations are utilized in acoustic-to-articulatory (A2A) inversion to construct multi-modal dysarthric and elderly speech recognition systems. Experiments conducted on the UASpeech dysarthric and DementiaBank Pitt elderly speech corpora suggest TDNN and Conformer ASR systems integrated domain adapted wav2vec2.0 models consistently outperform the standalone wav2vec2.0 models by statistically significant WER reductions of 8.22% and 3.43% absolute (26.71% and 15.88% relative) on the two tasks respectively. The lowest published WERs of 22.56% (52.53% on very low intelligibility, 39.09% on unseen words) and 18.17% are obtained on the UASpeech test set of 16 dysarthric speakers, and the DementiaBank Pitt test set respectively.

arxiv情報

著者 Shujie Hu,Xurong Xie,Zengrui Jin,Mengzhe Geng,Yi Wang,Mingyu Cui,Jiajun Deng,Xunying Liu,Helen Meng
発行日 2023-06-22 06:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク