Towards spoken dialect identification of Irish

要約

アイルランド語は、方言やアクセントの多様性に富んでいます。
これは、リソースが少ない言語用の音声認識システムを作成することの難しさをさらに複雑にします。そのようなシステムは、コーパスが限られているため、高度な変動性と対処する必要があるからです。
アイルランドASRにおける方言の偏りを調査した最近の研究では、バランスのとれたトレーニングコーパスが不平等な方言のパフォーマンスを引き起こし、アルスター方言のパフォーマンスがコナハト方言やミュンスター方言よりも一貫して悪いことが判明した。
これを動機として、本実験では、そのようなシステムを音声認識パイプラインに組み込むことを目的として、アイルランド語の音声方言識別を調査します。
2 つの音響分類モデル、XLS-R と ECAPA-TDNN を、事前トレーニング済みのアイルランド語 BERT モデルを使用したテキストベースの分類器と組み合わせてテストします。
ECAPA-TDNN、特に VoxLingua107 データセットで言語識別用に事前トレーニングされたモデルは、全体的に最高のパフォーマンスを示し、精度は 73% でした。
これは、モデルの出力とテキストベースのモデルを融合することにより、さらに 76% まで改善されました。
アルスター方言は 94% の精度で最も正確に識別されましたが、モデルはコナハト方言とミュンスター方言の間の曖昧さを解消するのに苦労しており、アイルランドの方言を確実に区別するにはより微妙なアプローチが必要である可能性があることを示唆しています。

要約(オリジナル)

The Irish language is rich in its diversity of dialects and accents. This compounds the difficulty of creating a speech recognition system for the low-resource language, as such a system must contend with a high degree of variability with limited corpora. A recent study investigating dialect bias in Irish ASR found that balanced training corpora gave rise to unequal dialect performance, with performance for the Ulster dialect being consistently worse than for the Connacht or Munster dialects. Motivated by this, the present experiments investigate spoken dialect identification of Irish, with a view to incorporating such a system into the speech recognition pipeline. Two acoustic classification models are tested, XLS-R and ECAPA-TDNN, in conjunction with a text-based classifier using a pretrained Irish-language BERT model. The ECAPA-TDNN, particularly a model pretrained for language identification on the VoxLingua107 dataset, performed best overall, with an accuracy of 73%. This was further improved to 76% by fusing the model’s outputs with the text-based model. The Ulster dialect was most accurately identified, with an accuracy of 94%, however the model struggled to disambiguate between the Connacht and Munster dialects, suggesting a more nuanced approach may be necessary to robustly distinguish between the dialects of Irish.

arxiv情報

著者 Liam Lonergan,Mengjie Qian,Neasa Ní Chiaráin,Christer Gobl,Ailbhe Ní Chasaide
発行日 2023-07-14 16:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク