Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer?


ASR システムは通常、話し言葉の「標準」向けに構築されており、非標準の方言や品種ではパフォーマンスが低下します。
これはアイルランド語のような言語にとって問題です。そこでは単一の標準話法が存在せず、アルスター (Ul)、コノート (Co)、ミュンスター (Mu) という 3 つの主要な方言が存在します。
認識性能に対する話者の方言の影響を定量化するための診断として、12 の ASR システムがトレーニングされました。最初はベースラインの方言バランスのとれたトレーニング コーパスを使用し、次にベースライン コーパスの修正バージョンを使用して、方言特有の素材が差し引かれるか追加されました。

結果は、方言バランスのとれたコーパスが方言全体で同様のパフォーマンスをもたらさないことを示しています。Ul 方言は一貫してパフォーマンスを下回っているのに対し、Mu は最も低い WER を示しています。
Co 方言と Mu 方言の間には密接な関係がありますが、対称的ではありません。


ASR systems are generally built for the spoken ‘standard’, and their performance declines for non-standard dialects/varieties. This is a problem for a language like Irish, where there is no single spoken standard, but rather three major dialects: Ulster (Ul), Connacht (Co) and Munster (Mu). As a diagnostic to quantify the effect of the speaker’s dialect on recognition performance, 12 ASR systems were trained, firstly using baseline dialect-balanced training corpora, and then using modified versions of the baseline corpora, where dialect-specific materials were either subtracted or added. Results indicate that dialect-balanced corpora do not yield a similar performance across the dialects: the Ul dialect consistently underperforms, whereas Mu yields lowest WERs. There is a close relationship between Co and Mu dialects, but one that is not symmetrical. These results will guide future corpus collection and system building strategies to optimise for cross-dialect performance equity.


著者 Liam Lonergan,Mengjie Qian,Neasa Ní Chiaráin,Christer Gobl,Ailbhe Ní Chasaide
発行日 2023-07-14 12:18:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク