Evaluating Automatic Speech Recognition in an Incremental Setting

要約

自動音声認識の信頼性が向上したことで、日常的に使用されるようになりました。
ただし、研究目的では、特に速度と精度の要件がある場合、タスクにどのモデルを選択する必要があるかが明確でないことがよくあります。
このホワイト ペーパーでは、単語エラー率、レイテンシ、および英語のテスト データで既に認識されている単語の更新数などのメトリックを使用して 6 つの音声認識エンジンを体系的に評価し、インクリメンタル認識のためにオーディオを認識エンジンにストリーミングする 2 つの方法を提案して比較します。
さらに、増分認識を評価するための新しいメトリックとして 1 秒あたりの取り消し数を提案し、それが全体的なモデル パフォーマンスへの洞察を提供することを示します。
一般に、ローカル レコグナイザーはクラウドベースのレコグナイザーよりも高速で、必要な更新が少ないことがわかっています。
最後に、Meta の Wav2Vec モデルが最も高速であり、Mozilla の DeepSpeech モデルが予測において最も安定していることがわかります。

要約(オリジナル)

The increasing reliability of automatic speech recognition has proliferated its everyday use. However, for research purposes, it is often unclear which model one should choose for a task, particularly if there is a requirement for speed as well as accuracy. In this paper, we systematically evaluate six speech recognizers using metrics including word error rate, latency, and the number of updates to already recognized words on English test data, as well as propose and compare two methods for streaming audio into recognizers for incremental recognition. We further propose Revokes per Second as a new metric for evaluating incremental recognition and demonstrate that it provides insights into overall model performance. We find that, generally, local recognizers are faster and require fewer updates than cloud-based recognizers. Finally, we find Meta’s Wav2Vec model to be the fastest, and find Mozilla’s DeepSpeech model to be the most stable in its predictions.

arxiv情報

著者 Ryan Whetten,Mir Tahsin Imtiaz,Casey Kennington
発行日 2023-02-23 14:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク