Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition

要約

この文書では、低リソース言語を多言語自動音声認識 (ASR) システムに統合するという課題について取り上げます。
継続的な多言語学習のコンテキスト内で、低リソース言語の事前トレーニング済み多言語 ASR モデルへの統合を容易にするために、通常は不均衡なデータセットに使用される重み付きクロスエントロピーの新しいアプリケーションを紹介します。
私たちは、言語に重み付けされた動的クロスエントロピーとデータ拡張を採用して、5 つの高リソース言語と 1 つの低リソース言語で Whisper 多言語 ASR モデルを微調整しました。
その結果、低リソース言語では、私たちのアプローチを適用せずに微調整したモデルと比較して単語誤り率 (WER) が 6.69% 減少し、元の Whisper モデルと比較して 48.86% WER が減少するという顕著な結果が得られました。
さらに、私たちのアプローチでは、6 つの言語全体で平均 3.29% の WER 削減が得られ、高リソース言語では低下が見られません。

要約(オリジナル)

This paper addresses the challenge of integrating low-resource languages into multilingual automatic speech recognition (ASR) systems. We introduce a novel application of weighted cross-entropy, typically used for unbalanced datasets, to facilitate the integration of low-resource languages into pre-trained multilingual ASR models within the context of continual multilingual learning. We fine-tune the Whisper multilingual ASR model on five high-resource languages and one low-resource language, employing language-weighted dynamic cross-entropy and data augmentation. The results show a remarkable 6.69% word error rate (WER) reduction for the low-resource language compared to the fine-tuned model without applying our approach, and a 48.86% WER reduction compared to the original Whisper model. In addition, our approach yields an average WER reduction of 3.29% across the six languages, showing no degradation for the high-resource languages.

arxiv情報

著者 Andrés Piñeiro-Martín,Carmen García-Mateo,Laura Docío-Fernández,María del Carmen López-Pérez,Georg Rehm
発行日 2024-09-25 14:09:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク