Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults

要約

Whisper に代表される自動音声認識 (ASR) システムの最近の進歩は、十分なデータがあれば、これらのシステムが人間レベルのパフォーマンスに近づく可能性があることを実証しています。
しかし、適切な子供特有のデータベースが限られていることと、子供たちの音声の独特の特徴により、この進歩はすぐには子供向けの ASR にまでは広がりません。
最近の研究では、My Science Tutor (MyST) の子供向け音声コーパスを活用して、子供の音声認識における Whisper のパフォーマンスを向上させることが調査されました。
彼らは、限られたテストセットである程度の改善を実証することができました。
このペーパーは、より効率的なデータ前処理を通じて MyST データセットの有用性を強化することで、これらの発見に基づいています。
MyST テストセットのワード エラー率 (WER) が、Whisper-Small では 13.93% から 9.11% に、Whisper-Medium では 13.23% から 8.61% に減少し、この改善が目に見えないデータセットにも一般化できることを示します。
また、子どもたちの ASR パフォーマンス向上に向けた重要な課題にも焦点を当てます。
この結果は、子供の音声認識を効果的に行うための Whisper の実行可能かつ効率的な統合を示しています。

要約(オリジナル)

Recent advancements in Automatic Speech Recognition (ASR) systems, exemplified by Whisper, have demonstrated the potential of these systems to approach human-level performance given sufficient data. However, this progress doesn’t readily extend to ASR for children due to the limited availability of suitable child-specific databases and the distinct characteristics of children’s speech. A recent study investigated leveraging the My Science Tutor (MyST) children’s speech corpus to enhance Whisper’s performance in recognizing children’s speech. They were able to demonstrate some improvement on a limited testset. This paper builds on these findings by enhancing the utility of the MyST dataset through more efficient data preprocessing. We reduce the Word Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be generalized to unseen datasets. We also highlight important challenges towards improving children’s ASR performance. The results showcase the viable and efficient integration of Whisper for effective children’s speech recognition.

arxiv情報

著者 Ahmed Adel Attia,Jing Liu,Wei Ai,Dorottya Demszky,Carol Espy-Wilson
発行日 2024-05-15 07:05:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク