要約
自動音声認識 (ASR) システムは、LibriSpeech や Fleurs などの広く使用されているベンチマークで顕著なパフォーマンスを達成しました。
ただし、これらのベンチマークは、現実世界の会話環境の複雑さを適切に反映していません。現実世界の会話環境では、音声が構造化されていないことが多く、休止、中断、多様なアクセントなどの不規則性が含まれています。
この研究では、TalkBank から派生した、成人間の非構造化電話会話から構成される多言語会話データセットを紹介します。
私たちの結果は、会話設定でテストした場合、さまざまな最先端の ASR モデル全体でパフォーマンスが大幅に低下することを示しています。
さらに、単語誤り率と音声の流暢さの存在との間に相関関係が観察され、より現実的な会話型 ASR ベンチマークの重要な必要性が強調されています。
要約(オリジナル)
Automatic Speech Recognition (ASR) systems have achieved remarkable performance on widely used benchmarks such as LibriSpeech and Fleurs. However, these benchmarks do not adequately reflect the complexities of real-world conversational environments, where speech is often unstructured and contains disfluencies such as pauses, interruptions, and diverse accents. In this study, we introduce a multilingual conversational dataset, derived from TalkBank, consisting of unstructured phone conversation between adults. Our results show a significant performance drop across various state-of-the-art ASR models when tested in conversational settings. Furthermore, we observe a correlation between Word Error Rate and the presence of speech disfluencies, highlighting the critical need for more realistic, conversational ASR benchmarks.
arxiv情報
著者 | Gaurav Maheshwari,Dmitry Ivanov,Théo Johannet,Kevin El Haddad |
発行日 | 2024-09-18 15:03:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google