要約
ジャスミンCGNコーパスの子供、高齢者、非ネイティブオランダ語のスピーチに関するウィスパーモデルの微調整されたバージョンの音声認識の変動をテストし、研究します。
私たちの主な目標は、スピーカーの年齢と言語的背景がウィスパーのパフォーマンスにどのように影響するかを評価することです。
ささやきは、特定の年齢と言語の背景の亜集団で微調整されたときに、さまざまな単語エラー率(WER)を実現します。
微調整されたパフォーマンスは、ゼロショットのパフォーマンスよりも非常に優れており、在来子供の場合は81%、非ネイティブの子供は72%、非ネイティブの成人で67%、在来の高齢者で65%を比較しています。
私たちの調査結果は、子供、高齢者、非ネイティブスピーカーなどの過小評価されている亜集団に関するささやきのようなスピーチ認識モデルをトレーニングすることの重要性を強調しています。
要約(オリジナル)
We test and study the variation in speech recognition of fine-tuned versions of the Whisper model on child, elderly and non-native Dutch speech from the JASMIN-CGN corpus. Our primary goal is to evaluate how speakers’ age and linguistic background influence Whisper’s performance. Whisper achieves varying Word Error Rates (WER) when fine-tuned on subpopulations of specific ages and linguistic backgrounds. Fine-tuned performance is remarkably better than zero-shot performance, achieving a relative reduction in WER of 81% for native children, 72% for non-native children, 67% for non-native adults, and 65% for native elderly people. Our findings underscore the importance of training speech recognition models like Whisper on underrepresented subpopulations such as children, the elderly, and non-native speakers.
arxiv情報
著者 | Golshid Shekoufandeh,Paul Boersma,Antal van den Bosch |
発行日 | 2025-02-24 16:11:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google