Evaluating Self-Supervised Speech Representations for Indigenous American Languages

要約

音声表現学習への自己監視の適用は、大量のラベルなしデータに対する拡張性により、近年大きな関心を集めています。
ただし、事前トレーニングと下流の評価の両方の点で、多くの進歩は依然として英語のみを考慮する単一言語モデルに集中しています。
他の言語を考慮したモデルはほとんどなく、先住民言語を考慮したモデルはさらに少ないです。
ASRU 2023 ML-SUPERB Challenge の New Language Track への提出では、南アメリカの先住民言語であるケチュア語の ASR コーパスを紹介します。
私たちは、グアラニー語やブリブリなどの他の 6 つの先住民言語とともにケチュア語の大規模 SSL モデルの有効性を、低リソースの ASR 上でベンチマークします。
私たちの結果は、最先端の SSL モデルによる驚くほど強力なパフォーマンスを示し、大規模モデルが現実世界のデータに一般化できる可能性があることを示しています。

要約(オリジナル)

The application of self-supervision to speech representation learning has garnered significant interest in recent years, due to its scalability to large amounts of unlabeled data. However, much progress, both in terms of pre-training and downstream evaluation, has remained concentrated in monolingual models that only consider English. Few models consider other languages, and even fewer consider indigenous ones. In our submission to the New Language Track of the ASRU 2023 ML-SUPERB Challenge, we present an ASR corpus for Quechua, an indigenous South American Language. We benchmark the efficacy of large SSL models on Quechua, along with 6 other indigenous languages such as Guarani and Bribri, on low-resource ASR. Our results show surprisingly strong performance by state-of-the-art SSL models, showing the potential generalizability of large-scale models to real-world data.

arxiv情報

著者 Chih-Chen Chen,William Chen,Rodolfo Zevallos,John Ortega
発行日 2023-10-05 16:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク