Exploring Self-supervised Pre-trained ASR Models For Dysarthric and Elderly Speech Recognition

要約

障害のある高齢者の発話の自動認識は、そのようなデータを大量に収集することが困難なため、今日まで非常に困難なタスクのままです。
このホワイト ペーパーでは、ドメイン適応 SSL 事前トレーニング モデルを TDNN および Conformer ASR システムに統合して、構音障害および高齢者の音声認識を実現するための一連のアプローチについて説明します。
b) 標準の音響機能のみを使用して個別にトレーニングされた TDNN システムのフレームレベルの共同復号化と、追加の wav2vec2.0 機能を使用した復号化。
c) TDNN/Conformer システム出力を含むマルチパス デコーディングは、ドメインに適応した wav2vec2.0 モデルを使用して再スコアリングされます。
さらに、ドメイン適応 wav2vec2.0 表現は、マルチモーダル構音障害および高齢者の音声認識システムを構築するために、音響-調音 (A2A) インバージョンで利用されます。
UASpeech dyarthric および DementiaBank Pitt の高齢者の音声コーパスで実施された実験では、TDNN および Conformer ASR システム統合ドメイン適応 wav2vec2.0 モデルが、8.22% および 3.43% 絶対 (26.71% および 15.88
% relative) を 2 つのタスクにそれぞれ適用します。
22.56% (非常に低い理解度で 52.53%、目に見えない単語で 39.09%) と 18.17% の最低の公表された WER は、16 人の構音障害の話者の UASpeech テスト セットと DementiaBank Pitt テスト セットでそれぞれ得られます。

要約(オリジナル)

Automatic recognition of disordered and elderly speech remains a highly challenging task to date due to the difficulty in collecting such data in large quantities. This paper explores a series of approaches to integrate domain adapted SSL pre-trained models into TDNN and Conformer ASR systems for dysarthric and elderly speech recognition: a) input feature fusion between standard acoustic frontends and domain adapted wav2vec2.0 speech representations; b) frame-level joint decoding of TDNN systems separately trained using standard acoustic features alone and with additional wav2vec2.0 features; and c) multi-pass decoding involving the TDNN/Conformer system outputs to be rescored using domain adapted wav2vec2.0 models. In addition, domain adapted wav2vec2.0 representations are utilized in acoustic-to-articulatory (A2A) inversion to construct multi-modal dysarthric and elderly speech recognition systems. Experiments conducted on the UASpeech dysarthric and DementiaBank Pitt elderly speech corpora suggest TDNN and Conformer ASR systems integrated domain adapted wav2vec2.0 models consistently outperform the standalone wav2vec2.0 models by statistically significant WER reductions of 8.22% and 3.43% absolute (26.71% and 15.88% relative) on the two tasks respectively. The lowest published WERs of 22.56% (52.53% on very low intelligibility, 39.09% on unseen words) and 18.17% are obtained on the UASpeech test set of 16 dysarthric speakers, and the DementiaBank Pitt test set respectively.

arxiv情報

著者 Shujie Hu,Xurong Xie,Zengrui Jin,Mengzhe Geng,Yi Wang,Mingyu Cui,Jiajun Deng,Xunying Liu,Helen Meng
発行日 2023-02-28 13:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク