The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data

要約

デジタル表現が限られた言語の音声技術の開発は、主に利用可能なデータの不足により、重大な課題を引き起こします。
この問題は、大規模でデータ集約型のモデルの時代にはさらに悪化します。
最近の研究では、弱い監視を利用して利用可能なデータのプールを増やす可能性が強調されています。
この研究では、ポッドキャストから現代ギリシャ語の 800 時間のコーパスを編集し、Whisperlarge-v3 を使用してシルバー文字起こしを生成します。
このコーパスは、ASR パフォーマンスの向上におけるこのアプローチの有効性を評価することを目的として、モデルを微調整するために利用されます。
私たちの分析は、現代ギリシャ語の確立されたデータセットの評価と並行して、16 の異なるポッドキャスト ドメインに及びます。
この結果は、データ量とモデル サイズの両方の増加と相関して、一貫した WER の改善を示しています。
私たちの研究は、大規模で弱い教師付きコーパスを組み立てることが、リソースが不足している言語で音声技術を進歩させるための費用対効果の高い戦略として機能することを確認しています。

要約(オリジナル)

The development of speech technologies for languages with limited digital representation poses significant challenges, primarily due to the scarcity of available data. This issue is exacerbated in the era of large, data-intensive models. Recent research has underscored the potential of leveraging weak supervision to augment the pool of available data. In this study, we compile an 800-hour corpus of Modern Greek from podcasts and employ Whisper large-v3 to generate silver transcriptions. This corpus is utilized to fine-tune our models, aiming to assess the efficacy of this approach in enhancing ASR performance. Our analysis spans 16 distinct podcast domains, alongside evaluations on established datasets for Modern Greek. The findings indicate consistent WER improvements, correlating with increases in both data volume and model size. Our study confirms that assembling large, weakly supervised corpora serves as a cost-effective strategy for advancing speech technologies in under-resourced languages.

arxiv情報

著者 Georgios Paraskevopoulos,Chara Tsoukala,Athanasios Katsamanis,Vassilis Katsouros
発行日 2024-06-21 16:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク