要約
低リソース言語の自動音声認識(ASR)パフォーマンスは、十分なラベル付きデータが不足しているため、英語などの高度なリソース言語のパフォーマンスにはかなり遅れています。
最先端のメソッドは、大量のデータで事前に訓練されたモデルがターゲットの低リソース言語で小さなラベル付きデータを使用して微調整される自己監視転送学習を展開します。
この論文では、フリジアンとその地域の方言(クレイ・フリジアン、ウッド・フリジアン、南フリジアン)のパフォーマンスを改善するために、SSLベースのモデルを微調整する方法を提示して検討します。
多言語(フリジア、オランダ語、英語、ドイツ語)の微調整データと補助言語識別タスクを使用することで、フリジアのASRパフォーマンスを改善できることを示します。
さらに、我々の調査結果は、方言の音声のパフォーマンスが大幅に苦しんでおり、重要なことに、この効果は方言データの収集に使用される誘発アプローチによって緩和されることを示しています。
また、私たちの調査結果は、ASR評価のための標準的な言語データのみに依存することで、特に方言の変動が大きくなる言語では、現実世界のパフォーマンスを過小評価する可能性があることを示唆しています。
要約(オリジナル)
Automatic Speech Recognition (ASR) performance for low-resource languages is still far behind that of higher-resource languages such as English, due to a lack of sufficient labeled data. State-of-the-art methods deploy self-supervised transfer learning where a model pre-trained on large amounts of data is fine-tuned using little labeled data in a target low-resource language. In this paper, we present and examine a method for fine-tuning an SSL-based model in order to improve the performance for Frisian and its regional dialects (Clay Frisian, Wood Frisian, and South Frisian). We show that Frisian ASR performance can be improved by using multilingual (Frisian, Dutch, English and German) fine-tuning data and an auxiliary language identification task. In addition, our findings show that performance on dialectal speech suffers substantially, and, importantly, that this effect is moderated by the elicitation approach used to collect the dialectal data. Our findings also particularly suggest that relying solely on standard language data for ASR evaluation may underestimate real-world performance, particularly in languages with substantial dialectal variation.
arxiv情報
著者 | Reihaneh Amooie,Wietse de Vries,Yun Hao,Jelske Dijkstra,Matt Coler,Martijn Wieling |
発行日 | 2025-02-07 12:42:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google