Killkan: The Automatic Speech Recognition Dataset for Kichwa with Morphosyntactic Information

要約

この論文では、エクアドルの先住民言語であるキチュワ語の自動音声認識 (ASR) 用の最初のデータセットである Killkan について紹介します。
Kichwa は非常にリソースが少ない絶滅危惧言語であり、Kichwa を自然言語処理のアプリケーションに組み込むためのリソースは Killkan より前にはありませんでした。
データセットには、転写、スペイン語への翻訳、ユニバーサル依存関係形式の形態構文注釈を含む約 4 時間の音声が含まれています。
音声データは、キチュワで公開されているラジオ番組から取得されました。
この論文では、キチュワ語の膠着形態学とスペイン語との頻繁なコード交換に特に焦点を当てた、データセットのコーパス言語学的分析も提供します。
実験の結果、このデータセットにより、データセットのサイズが小さいにもかかわらず、信頼できる品質でキチュワの最初の ASR システムを開発できることがわかりました。
このデータセット、ASR モデル、およびそれらの開発に使用されるコードは一般公開されます。
したがって、私たちの研究は、低リソース言語とそのコミュニティのためのリソース構築とその応用を積極的に紹介しています。

要約(オリジナル)

This paper presents Killkan, the first dataset for automatic speech recognition (ASR) in the Kichwa language, an indigenous language of Ecuador. Kichwa is an extremely low-resource endangered language, and there have been no resources before Killkan for Kichwa to be incorporated in applications of natural language processing. The dataset contains approximately 4 hours of audio with transcription, translation into Spanish, and morphosyntactic annotation in the format of Universal Dependencies. The audio data was retrieved from a publicly available radio program in Kichwa. This paper also provides corpus-linguistic analyses of the dataset with a special focus on the agglutinative morphology of Kichwa and frequent code-switching with Spanish. The experiments show that the dataset makes it possible to develop the first ASR system for Kichwa with reliable quality despite its small dataset size. This dataset, the ASR model, and the code used to develop them will be publicly available. Thus, our study positively showcases resource building and its applications for low-resource languages and their community.

arxiv情報

著者 Chihiro Taguchi,Jefferson Saransig,Dayana Velásquez,David Chiang
発行日 2024-04-23 20:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク