Low-resource speech recognition and dialect identification of Irish in a multi-task framework

要約

このペーパーでは、アイルランド語 (ゲール語) の低リソース音声認識 (ASR) および方言識別 (DID) 向けに、中間 CTC (InterCTC) でトレーニングされたハイブリッド CTC/アテンション エンコーダ/デコーダ モデルの使用について検討します。
結果は、ASR (TDNN-HMM) および DID (ECAPA-TDNN) 用にトレーニングされた現在最もパフォーマンスの高いモデルと比較されます。
最適な InterCTC 設定は、最初に Conformer エンコーダを使用して確立されます。
この設定は、E-branchformer エンコーダーでモデルをトレーニングするために使用され、両方のアーキテクチャのパフォーマンスが比較されます。
言語モデル (LM) の浅い融合には、マルチタスク微調整アプローチが採用されています。
実験により、ベースライン ECAPA-TDNN と比較して DID 精度が 10.8% 向上し、WER パフォーマンスが TDNN-HMM モデルに近づきました。
このマルチタスクのアプローチは、アイルランドの低資源の ASR および DID にとって有望な戦略として浮上しています。

要約(オリジナル)

This paper explores the use of Hybrid CTC/Attention encoder-decoder models trained with Intermediate CTC (InterCTC) for Irish (Gaelic) low-resource speech recognition (ASR) and dialect identification (DID). Results are compared to the current best performing models trained for ASR (TDNN-HMM) and DID (ECAPA-TDNN). An optimal InterCTC setting is initially established using a Conformer encoder. This setting is then used to train a model with an E-branchformer encoder and the performance of both architectures are compared. A multi-task fine-tuning approach is adopted for language model (LM) shallow fusion. The experiments yielded an improvement in DID accuracy of 10.8% relative to a baseline ECAPA-TDNN, and WER performance approaching the TDNN-HMM model. This multi-task approach emerges as a promising strategy for Irish low-resource ASR and DID.

arxiv情報

著者 Liam Lonergan,Mengjie Qian,Neasa Ní Chiaráin,Christer Gobl,Ailbhe Ní Chasaide
発行日 2024-05-02 13:54:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク