要約
本論文では投機的音声認識(SSR)について検討する。投機的音声認識とは、従来の自動音声認識(ASR)に投機機能を持たせ、認識器を音声より先に実行できるようにしたものである。SSRの性能を測定する指標を導入し、RNN-トランスデューサベースのASRシステムと音声前置言語モデル(LM)を組み合わせてSSRを行うモデルを提案する。ASRシステムは進行中の音声を書き起こし、得られた書き起こしを音声に依存する接頭辞とともにLMに送り、LMは書き起こしの補完候補を推測する。我々は様々なASRデータセットを用いて実験を行い、我々の手法の有効性と、ASRの待ち時間を短縮する手法としてのSSRの実現可能性を示す。
要約(オリジナル)
This paper explores speculative speech recognition (SSR), where we empower conventional automatic speech recognition (ASR) with speculation capabilities, allowing the recognizer to run ahead of audio. We introduce a metric for measuring SSR performance and we propose a model which does SSR by combining a RNN-Transducer-based ASR system with an audio-prefixed language model (LM). The ASR system transcribes ongoing audio and feeds the resulting transcripts, along with an audio-dependent prefix, to the LM, which speculates likely completions for the transcriptions. We experiment with a variety of ASR datasets on which show the efficacy our method and the feasibility of SSR as a method of reducing ASR latency.
arxiv情報
著者 | Bolaji Yusuf,Murali Karthick Baskar,Andrew Rosenberg,Bhuvana Ramabhadran |
発行日 | 2024-07-05 16:52:55+00:00 |
arxivサイト | arxiv_id(pdf) |