Exploring Generative Error Correction for Dysarthric Speech Recognition

要約

エンドツーエンドの自動音声認識(ASR)エンジンの驚くべき進歩にもかかわらず、ダイサルトリックスピーチを正確に転写することは依然として大きな課題です。
この作業では、最先端の音声認識モデルとLLMベースの生成エラー補正(GER)を組み合わせたSpeech interspeech 2025で、Speech Accessibility Project Challengeの2段階フレームワークを提案しました。
モデルスケールとトレーニング戦略のさまざまな構成を評価し、特定の仮説選択を組み込み、転写の精度を向上させます。
スピーチアクセシビリティプロジェクトデータセットの実験は、単一単語認識の課題を強調しながら、構造化された自発的な音声に関するアプローチの強さを示しています。
包括的な分析を通じて、ダイサルトリック音声認識における音響および言語モデリングの補完的な役割に関する洞察を提供します

要約(オリジナル)

Despite the remarkable progress in end-to-end Automatic Speech Recognition (ASR) engines, accurately transcribing dysarthric speech remains a major challenge. In this work, we proposed a two-stage framework for the Speech Accessibility Project Challenge at INTERSPEECH 2025, which combines cutting-edge speech recognition models with LLM-based generative error correction (GER). We assess different configurations of model scales and training strategies, incorporating specific hypothesis selection to improve transcription accuracy. Experiments on the Speech Accessibility Project dataset demonstrate the strength of our approach on structured and spontaneous speech, while highlighting challenges in single-word recognition. Through comprehensive analysis, we provide insights into the complementary roles of acoustic and linguistic modeling in dysarthric speech recognition

arxiv情報

著者 Moreno La Quatra,Alkis Koudounas,Valerio Mario Salerno,Sabato Marco Siniscalchi
発行日 2025-05-26 16:06:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク