要約
この論文では、Whisper モデルを使用して低リソース言語の自動音声認識 (ASR) を改善する新しいアプローチである Meta-Whisper について説明します。
Meta-Whisper は、サンプル選択に Meta In-Context Learning (Meta-ICL) と k-Nearest Neighbors (KNN) アルゴリズムを活用することで、広範な微調整を行わずに、なじみのない言語での音声を認識する Whisper の能力を強化します。
ML-SUPERB データセットの実験では、Meta-Whisper が元の Whisper モデルと比較して、低リソース言語の文字誤り率 (CER) を大幅に低減することが示されています。
この方法は、特にリソースが限られている言語に対して、より適応性の高い多言語 ASR システムを開発するための有望なソリューションを提供します。
要約(オリジナル)
This paper presents Meta-Whisper, a novel approach to improve automatic speech recognition (ASR) for low-resource languages using the Whisper model. By leveraging Meta In-Context Learning (Meta-ICL) and a k-Nearest Neighbors (KNN) algorithm for sample selection, Meta-Whisper enhances Whisper’s ability to recognize speech in unfamiliar languages without extensive fine-tuning. Experiments on the ML-SUPERB dataset show that Meta-Whisper significantly reduces the Character Error Rate (CER) for low-resource languages compared to the original Whisper model. This method offers a promising solution for developing more adaptable multilingual ASR systems, particularly for languages with limited resources.
arxiv情報
著者 | Ming-Hao Hsu,Kuan Po Huang,Hung-yi Lee |
発行日 | 2024-09-16 16:04:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google