要約
自動音声認識研究における長年の疑問は、高次のコンテキスト (語彙、形態論、構文、意味論) を活用するモデルの能力ではなく、音響をモデル化するモデルの能力にエラーが起因すると考える方法です。
相対的なテキストの予測可能性の関数としてエラー率をモデル化し、認識装置に対するテキストの予測可能性の影響を測定する単一の数値 $k$ を生成する新しいアプローチを検証します。
この方法を使用して、明示的な言語モデルを使用していないにもかかわらず、Wav2Vec 2.0 ベースのモデルがハイブリッド ASR モデルよりもテキスト コンテキストをより強力に使用していることを実証し、また、この方法を使用して、パフォーマンスの低下を示す最近の結果を明らかにします。
アフリカ系アメリカ人の英語に関する標準的な ASR システム。
我々は、これらが主に音響的、音声的モデリングの失敗を表していることを実証します。
このアプローチを ASR の診断と改善に直接使用できる方法を示します。
要約(オリジナル)
A long-standing question in automatic speech recognition research is how to attribute errors to the ability of a model to model the acoustics, versus its ability to leverage higher-order context (lexicon, morphology, syntax, semantics). We validate a novel approach which models error rates as a function of relative textual predictability, and yields a single number, $k$, which measures the effect of textual predictability on the recognizer. We use this method to demonstrate that a Wav2Vec 2.0-based model makes greater stronger use of textual context than a hybrid ASR model, in spite of not using an explicit language model, and also use it to shed light on recent results demonstrating poor performance of standard ASR systems on African-American English. We demonstrate that these mostly represent failures of acoustic–phonetic modelling. We show how this approach can be used straightforwardly in diagnosing and improving ASR.
arxiv情報
著者 | Sean Robertson,Gerald Penn,Ewan Dunbar |
発行日 | 2024-07-23 14:47:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google