要約
名前、場所などのコンテキスト情報を使用して、エンドツーエンド (E2E) 自動音声認識 (ASR) モデルの出力を修正するコンテキスト スペル修正 (CSC) を以前に提案しました。
、さらに精度を向上させるにはまだ2つの欠点があります。
第 1 に、テキストのみの仮説における情報制限またはまれなドメインでの ASR モデルの弱いパフォーマンスが原因で、CSC モデルは、発音が類似しているフレーズや、すべてのバイアス フレーズが発話に存在しないアンチ コンテキストのケースを修正できない可能性があります。
第二に、CSC のトレーニングと推論の間に矛盾があります。
トレーニングのバイアス リストはランダムに選択されますが、推論では、グラウンド トゥルース フレーズと他のフレーズとの類似性が高くなる可能性があります。
上記の制限を解決するために、このホワイト ペーパーでは、E2E ニューラル トランスデューサー ベースの ASR システムにおけるコンテキスト バイアス用の改善された非自己回帰 (NAR) スペル修正モデルを提案し、以前の CSC モデルを 2 つの観点から改善します。
外部からの注目とテキスト仮説を CSC に追加して、ターゲット フレーズを異なるフレーズまたは無関係なフレーズからより適切に区別します。
次に、トレーニング フレーズでセマンティックを意識したデータ拡張スキーマを設計して、トレーニングと推論の間のミスマッチを減らし、バイアスの精度をさらに高めます。
実験によると、改善された方法は、ベースラインの ASR + バイアス システムよりも 20.3% の相対的な名前の想起率が向上し、以前の CSC 方法と比較して、さまざまなバイアス リスト名のカバー率で安定した改善を達成することが示されています。
要約(オリジナル)
We previously proposed contextual spelling correction (CSC) to correct the output of end-to-end (E2E) automatic speech recognition (ASR) models with contextual information such as name, place, etc. Although CSC has achieved reasonable improvement in the biasing problem, there are still two drawbacks for further accuracy improvement. First, due to information limitation in text only hypothesis or weak performance of ASR model on rare domains, the CSC model may fail to correct phrases with similar pronunciation or anti-context cases where all biasing phrases are not present in the utterance. Second, there is a discrepancy between the training and inference of CSC. The bias list in training is randomly selected but in inference there may be more similarity between ground truth phrase and other phrases. To solve above limitations, in this paper we propose an improved non-autoregressive (NAR) spelling correction model for contextual biasing in E2E neural transducer-based ASR systems to improve the previous CSC model from two perspectives: Firstly, we incorporate acoustics information with an external attention as well as text hypotheses into CSC to better distinguish target phrase from dissimilar or irrelevant phrases. Secondly, we design a semantic aware data augmentation schema in training phrase to reduce the mismatch between training and inference to further boost the biasing accuracy. Experiments show that the improved method outperforms the baseline ASR+Biasing system by as much as 20.3% relative name recall gain and achieves stable improvement compared to the previous CSC method over different bias list name coverage ratio.
arxiv情報
著者 | Xiaoqiang Wang,Yanqing Liu,Jinyu Li,Sheng Zhao |
発行日 | 2023-02-22 08:00:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google