Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations

要約

このペーパーでは、テオチュー方言のスピーチコーパスであるTeochew-Wildの構築を報告しています。
コーパスには、複数のスピーカーからの18.9時間の野生のテオチューの音声データが含まれており、正確な正書法とピニンの注釈を備えた形式的表現と口語的な表現の両方をカバーしています。
さらに、自動音声認識(ASR)やテキストツースピーチ(TTS)など、この低リソース言語の音声タスクで研究とアプリケーションを推進するための補足テキスト処理ツールとリソースを提供します。
私たちの知る限り、これは正確な正書法の注釈を備えた最初の公開されたTeochewデータセットです。
コーパスで実験を実施し、結果はASRおよびTTSタスクの有効性を検証します。

要約(オリジナル)

This paper reports the construction of the Teochew-Wild, a speech corpus of the Teochew dialect. The corpus includes 18.9 hours of in-the-wild Teochew speech data from multiple speakers, covering both formal and colloquial expressions, with precise orthographic and pinyin annotations. Additionally, we provide supplementary text processing tools and resources to propel research and applications in speech tasks for this low-resource language, such as automatic speech recognition (ASR) and text-to-speech (TTS). To the best of our knowledge, this is the first publicly available Teochew dataset with accurate orthographic annotations. We conduct experiments on the corpus, and the results validate its effectiveness in ASR and TTS tasks.

arxiv情報

著者 Linrong Pan,Chenglong Jiang,Gaoze Hou,Ying Gao
発行日 2025-05-08 08:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク