Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages

要約

この論文では、Whisper モデルを使用して低リソース言語の自動音声認識 (ASR) を改善する新しいアプローチである Meta-Whisper について説明します。
Meta-Whisper は、サンプル選択に Meta In-Context Learning (Meta-ICL) と k-Nearest Neighbors (KNN) アルゴリズムを活用することで、広範な微調整を行わずに、なじみのない言語での音声を認識する Whisper の能力を強化します。
ML-SUPERB データセットの実験では、Meta-Whisper が元の Whisper モデルと比較して、低リソース言語の文字誤り率 (CER) を大幅に低減することが示されています。
この方法は、特にリソースが限られている言語に対して、より適応性の高い多言語 ASR システムを開発するための有望なソリューションを提供します。

要約(オリジナル)

This paper presents Meta-Whisper, a novel approach to improve automatic speech recognition (ASR) for low-resource languages using the Whisper model. By leveraging Meta In-Context Learning (Meta-ICL) and a k-Nearest Neighbors (KNN) algorithm for sample selection, Meta-Whisper enhances Whisper’s ability to recognize speech in unfamiliar languages without extensive fine-tuning. Experiments on the ML-SUPERB dataset show that Meta-Whisper significantly reduces the Character Error Rate (CER) for low-resource languages compared to the original Whisper model. This method offers a promising solution for developing more adaptable multilingual ASR systems, particularly for languages with limited resources.

arxiv情報

著者 Ming-Hao Hsu,Kuan Po Huang,Hung-yi Lee
発行日 2024-09-16 16:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク