要約
この論文では、OpenAI の Whisper モデルを使用して、低リソース言語における自動音声認識 (ASR) のパフォーマンスを強化するために設計された、新しい多段階微調整戦略を紹介します。
このアプローチでは、言語的に類似した言語間でモデルを順次適応させることで、デジタル リソースが限られた言語向けの ASR モデルを構築することを目指しています。
私たちはこれを、南インドの西ガーツ山脈で約 1 万人が話すドラヴィダ語であるマラサール語で実験しました。
マラサール言語は、ネイティブ文字の欠如とデジタルまたは音声データリソースの欠如により、技術介入の重大な課題に直面しています。
私たちは、ウィクリフ インドおよびマラサール コミュニティのメンバーと協力して、密接に関連する主要言語であるタミル語文字による書き起こしと組み合わせた音声マラサール コーパスを作成しました。
マラサール用の ASR モデルを構築するアプローチでは、まず、タミル語の注釈付き音声のより高いデータ可用性を活用して、中間タミル語 ASR を構築します。
この中間モデルはその後、マラサール データに基づいて微調整され、限られたリソースにもかかわらず、より効果的な ASR 適応が可能になります。
多段階微調整戦略は、Malasar データのみでの直接微調整と比較して大幅な改善を示し、ワード エラー率 (WER) 51.9% を達成しました。これは、直接微調整方法と比較した場合、絶対的な 4.5% の削減です。
さらに、後処理での句読点の削除により、WER が 47.3% まで削減され、評価に影響を与える書式の不一致に対処できました。
私たちの結果は、特に言語の類似性を活用してトレーニング データのギャップを埋めることができる、低リソース言語での ASR システム開発のスケーラブルな戦略として、ターゲットを絞った後処理と組み合わせた逐次多段階微調整の有効性を強調しています。
要約(オリジナル)
This paper presents a novel multistage fine-tuning strategy designed to enhance automatic speech recognition (ASR) performance in low-resource languages using OpenAI’s Whisper model. In this approach we aim to build ASR model for languages with limited digital resources by sequentially adapting the model across linguistically similar languages. We experimented this on the Malasar language, a Dravidian language spoken by approximately ten thousand people in the Western Ghats of South India. Malasar language faces critical challenges for technological intervention due to its lack of a native script and absence of digital or spoken data resources. Working in collaboration with Wycliffe India and Malasar community members, we created a spoken Malasar corpus paired with transcription in Tamil script, a closely related major language. In our approach to build ASR model for Malasar, we first build an intermediate Tamil ASR, leveraging higher data availability for Tamil annotated speech. This intermediate model is subsequently fine-tuned on Malasar data, allowing for more effective ASR adaptation despite limited resources. The multistage fine-tuning strategy demonstrated significant improvements over direct fine-tuning on Malasar data alone, achieving a word error rate (WER) of 51.9%, which is 4.5% absolute reduction when compared to the direct fine-tuning method. Further a WER reduction to 47.3% was achieved through punctuation removal in post-processing, which addresses formatting inconsistencies that impact evaluation. Our results underscore the effectiveness of sequential multistage fine-tuning combined with targeted post-processing as a scalable strategy for ASR system development in low-resource languages, especially where linguistic similarities can be leveraged to bridge gaps in training data.
arxiv情報
著者 | Leena G Pillai,Kavya Manohar,Basil K Raju,Elizabeth Sherly |
発行日 | 2024-11-07 09:57:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google