Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation

要約

自動音声認識 (ASR) システムは、吃音に関連した不規則性 (不随意なブロックや単語の繰り返しなど) の処理中に頻繁に機能不全に陥り、不正確なトランスクリプトを生成します。
進歩に対する重大な障壁は、注釈付きの大規模で流暢でない音声データセットが不足していることです。
したがって、標準的な音声に対する大規模な自己教師あり学習と、その後に流暢でない音声の厳選された小規模なデータセットに対するターゲットを絞った微調整とデータ拡張を活用する、包括的な ASR 設計アプローチを提案します。
当社のデータ拡張技術は、さまざまな不一致を含むトレーニング データセットを強化し、これらの音声パターンの ASR 処理を強化します。
結果は、データ拡張と並行して、比較的小さなラベル付きデータセットでも wav2vec 2.0 を微調整することで、流暢な音声による単語の誤り率を大幅に削減できることを示しています。
私たちのアプローチは、吃音のある人々の ASR の包括性を高めるだけでなく、より幅広い発話のバリエーションに対応できる ASR への道も開きます。

要約(オリジナル)

Automatic speech recognition (ASR) systems often falter while processing stuttering-related disfluencies — such as involuntary blocks and word repetitions — yielding inaccurate transcripts. A critical barrier to progress is the scarcity of large, annotated disfluent speech datasets. Therefore, we present an inclusive ASR design approach, leveraging large-scale self-supervised learning on standard speech followed by targeted fine-tuning and data augmentation on a smaller, curated dataset of disfluent speech. Our data augmentation technique enriches training datasets with various disfluencies, enhancing ASR processing of these speech patterns. Results show that fine-tuning wav2vec 2.0 with even a relatively small, labeled dataset, alongside data augmentation, can significantly reduce word error rates for disfluent speech. Our approach not only advances ASR inclusivity for people who stutter, but also paves the way for ASRs that can accommodate wider speech variations.

arxiv情報

著者 Dena Mujtaba,Nihar R. Mahapatra,Megan Arney,J. Scott Yaruss,Caryn Herring,Jia Bin
発行日 2024-06-14 16:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS, I.2 パーマリンク