要約
自動音声認識 (ASR) モデルがますます普及するにつれて、物理世界とデジタル世界に存在する破損状況下でも信頼性の高い予測を確実に行うことが重要です。
私たちは、さまざまな破損に対する ASR モデルの堅牢性を評価するための包括的なベンチマークである Speech Robust Bench (SRB) を提案します。
SRB は 114 の入力摂動で構成されており、ASR モデルが実際に展開されたときに遭遇する可能性のあるさまざまな範囲の破損をシミュレートします。
私たちは SRB を使用して、いくつかの最先端の ASR モデルの堅牢性を評価し、モデル サイズと、離散表現の使用や自己学習などの特定のモデリングの選択が堅牢性に貢献しているようであることを観察しました。
この分析を拡張して、さまざまな人口統計サブグループ、つまり英語話者とスペイン語話者、および男性と女性からのデータに対する ASR モデルの堅牢性を測定します。
私たちの結果では、サブグループ間でモデルの堅牢性に顕著な差があることが明らかになりました。
SRB により、包括的で比較可能な堅牢性評価の実施が容易になるため、堅牢な ASR モデルに向けた将来の研究が大幅に促進されると考えています。
要約(オリジナル)
As Automatic Speech Recognition (ASR) models become ever more pervasive, it is important to ensure that they make reliable predictions under corruptions present in the physical and digital world. We propose Speech Robust Bench (SRB), a comprehensive benchmark for evaluating the robustness of ASR models to diverse corruptions. SRB is composed of 114 input perturbations which simulate an heterogeneous range of corruptions that ASR models may encounter when deployed in the wild. We use SRB to evaluate the robustness of several state-of-the-art ASR models and observe that model size and certain modeling choices such as the use of discrete representations, or self-training appear to be conducive to robustness. We extend this analysis to measure the robustness of ASR models on data from various demographic subgroups, namely English and Spanish speakers, and males and females. Our results revealed noticeable disparities in the model’s robustness across subgroups. We believe that SRB will significantly facilitate future research towards robust ASR models, by making it easier to conduct comprehensive and comparable robustness evaluations.
arxiv情報
著者 | Muhammad A. Shah,David Solans Noguero,Mikko A. Heikkila,Bhiksha Raj,Nicolas Kourtellis |
発行日 | 2024-12-09 13:43:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google