Evaluation of state-of-the-art ASR Models in Child-Adult Interactions


深層学習アーキテクチャの最近の進歩と大規模な文字起こしデータの利用可能性により、ASR パフォーマンスの劇的な向上を示す音声基盤モデルの開発が行われました。
この研究では、Whisper、Wav2Vec2、HuBERT、および WavLM を使用して、自閉症診断セッションからの子供と大人の相互作用を含むデータセットに対する ASR パフォーマンスの包括的な評価を提供します。
音声基礎モデルでは、会話環境において大人の音声と比較して、子供の音声では顕著なパフォーマンスの低下 (絶対 WER 15 ~ 20%) が示されることがわかりました。
次に、最もパフォーマンスの高いゼロ ショット モデル (ウィスパー ラージ) で LoRA を採用し、低リソース設定での微調整の有効性を調査しました。その結果、子供の音声については絶対 WER が最大 8%、絶対 WER が最大 13% 向上しました。


The ability to reliably transcribe child-adult conversations in a clinical setting is valuable for diagnosis and understanding of numerous developmental disorders such as Autism Spectrum Disorder. Recent advances in deep learning architectures and availability of large scale transcribed data has led to development of speech foundation models that have shown dramatic improvements in ASR performance. However, the ability of these models to translate well to conversational child-adult interactions is under studied. In this work, we provide a comprehensive evaluation of ASR performance on a dataset containing child-adult interactions from autism diagnostic sessions, using Whisper, Wav2Vec2, HuBERT, and WavLM. We find that speech foundation models show a noticeable performance drop (15-20% absolute WER) for child speech compared to adult speech in the conversational setting. Then, we employ LoRA on the best performing zero shot model (whisper-large) to probe the effectiveness of fine-tuning in a low resource setting, resulting in ~8% absolute WER improvement for child speech and ~13% absolute WER improvement for adult speech.


著者 Aditya Ashvin,Rimita Lahiri,Aditya Kommineni,Somer Bishop,Catherine Lord,Sudarsana Reddy Kadiri,Shrikanth Narayanan
発行日 2024-09-24 14:42:37+00:00
カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク