ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa’ikhana

要約

先住民族の言語は人間のコミュニケーションの発展における基本的な遺産であり、アメリカの地域社会の独自のアイデンティティと文化を体現しています。
NeurIPS 2022 の第 2 回アメリカ NLP コンペティション トラック 1 では、ケチュア語、グアラニー語、ブリブリ語、コティリア語、ワイハナ語の 5 つの先住民言語用の自動音声認識 (ASR) システムの開発が提案されました。
この論文では、さまざまなソースにまたがる音声コーパスをクローリングし、このコンテストで優勝したアプローチにつながったデータ拡張手法を適用することにより、各ターゲット言語に対する信頼性の高い ASR モデルを提案します。
これを達成するために、私たちは言語モデルのパフォーマンスに対するベイジアン検索によるさまざまなハイパーパラメーターの影響を体系的に調査しました。特に、Wav2vec2.0 XLS-R モデルのバリアントである 300M パラメーターと 1B パラメーターに焦点を当てました。
さらに、グローバル感度分析を実行して、最良のモデルのパフォーマンスに対するさまざまなハイパーパラメトリック構成の寄与を評価しました。
重要なことに、私たちの結果は、フリーズ微調整アップデートとドロップアウト率が、lr のエポックの総数よりも重要なパラメータであることを示しています。
さらに、ワイハナ語とコティリア語の 2 つの言語については、これまでに他の ASR モデルが報告されていない最良のモデルを公開し、他の研究者が少数言語で ASR を改善し続けるための道を開くために実行された多くの実験を公開しました。
この洞察は将来の研究に興味深い道を開き、少数先住民族の保護における ASR 技術の進歩を可能にし、この重要な取り組みに伴う複雑さを認識します。

要約(オリジナル)

Indigenous languages are a fundamental legacy in the development of human communication, embodying the unique identity and culture of local communities of America. The Second AmericasNLP Competition Track 1 of NeurIPS 2022 proposed developing automatic speech recognition (ASR) systems for five indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa’ikhana. In this paper, we propose a reliable ASR model for each target language by crawling speech corpora spanning diverse sources and applying data augmentation methods that resulted in the winning approach in this competition. To achieve this, we systematically investigated the impact of different hyperparameters by a Bayesian search on the performance of the language models, specifically focusing on the variants of the Wav2vec2.0 XLS-R model: 300M and 1B parameters. Moreover, we performed a global sensitivity analysis to assess the contribution of various hyperparametric configurations to the performances of our best models. Importantly, our results show that freeze fine-tuning updates and dropout rate are more vital parameters than the total number of epochs of lr. Additionally, we liberate our best models — with no other ASR model reported until now for two Wa’ikhana and Kotiria — and the many experiments performed to pave the way to other researchers to continue improving ASR in minority languages. This insight opens up interesting avenues for future work, allowing for the advancement of ASR techniques in the preservation of minority indigenous and acknowledging the complexities involved in this important endeavour.

arxiv情報

著者 Monica Romero,Sandra Gomez,Iván G. Torre
発行日 2024-04-12 10:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク