Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition

要約

調音機能は本質的に音響信号の歪みに対して不変であり、通常の音声用に設計された自動音声認識 (ASR) システムにうまく組み込まれています。
高齢者や言語を超えた言語障害などの非典型的なタスク領域への実際の適用は、ターゲット話者からそのような専門的なデータを収集することが難しいため、制限されることがよくあります。
この論文では、クロスドメインおよびクロス言語に適合させる前に、A2A モデルの事前トレーニングで 24 時間の TaL コーパスの並列オーディオおよび超音波舌画像 (UTI) データを利用する、クロスドメインおよびクロス言語の A2A インバージョン アプローチを紹介します。
英語の DementiaBank Pitt と広東語の JCCOCC MoCA 高齢者音声コーパスの 2 つの言語にわたる 3 つのデータセット。
および英語のTORGO構音障害音声データを使用して、UTIベースの調音特徴を生成します。
生成された調音特徴を組み込むことを示唆する 3 つのタスクで行われた実験では、統計的に有意な単語または文字の誤り率が絶対値で最大 4.75%、2.59%、および 2.07% 削減され、音響特徴のみを使用して構築されたベースライン TDNN および Conformer ASR システムよりも一貫して優れたパフォーマンスを示しました (14.69%、10.64
% および 22.72% 相対)、データ拡張後、スピーカー適応およびクロスシステム マルチパス デコーディングが適用されました。

要約(オリジナル)

Articulatory features are inherently invariant to acoustic signal distortion and have been successfully incorporated into automatic speech recognition (ASR) systems designed for normal speech. Their practical application to atypical task domains such as elderly and disordered speech across languages is often limited by the difficulty in collecting such specialist data from target speakers. This paper presents a cross-domain and cross-lingual A2A inversion approach that utilizes the parallel audio and ultrasound tongue imaging (UTI) data of the 24-hour TaL corpus in A2A model pre-training before being cross-domain and cross-lingual adapted to three datasets across two languages: the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech corpora; and the English TORGO dysarthric speech data, to produce UTI based articulatory features. Experiments conducted on three tasks suggested incorporating the generated articulatory features consistently outperformed the baseline TDNN and Conformer ASR systems constructed using acoustic features only by statistically significant word or character error rate reductions up to 4.75%, 2.59% and 2.07% absolute (14.69%, 10.64% and 22.72% relative) after data augmentation, speaker adaptation and cross system multi-pass decoding were applied.

arxiv情報

著者 Shujie Hu,Xurong Xie,Mengzhe Geng,Mingyu Cui,Jiajun Deng,Guinan Li,Tianzi Wang,Xunying Liu,Helen Meng
発行日 2023-06-22 06:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク