Transformer-based Model for ASR N-Best Rescoring and Rewriting

要約

音声アシスタントは、速度とプライバシーを確​​保するために、オンデバイスの自動音声認識 (ASR) を使用することが増えています。
ただし、デバイス上のリソースの制約により、複雑な情報ドメインに関連するクエリには、検索エンジンによるさらなる処理が必要になることがよくあります。
このようなアプリケーションのために、N-best 仮説の完全なコンテキストを並行して探索することにより、再スコアリングと書き換えが可能な新しい Transformer ベースのモデルを提案します。
また、スコア付けタスクと書き換えタスクの両方にうまく機能する、新しい識別シーケンス トレーニング目標も提案します。
Rescore+Rewrite モデルは Rescore のみのベースラインを上回り、ASR システム単独と比較して相対ワード エラー率 (WER) を平均で最大 8.6% 削減できることを示します。

要約(オリジナル)

Voice assistants increasingly use on-device Automatic Speech Recognition (ASR) to ensure speed and privacy. However, due to resource constraints on the device, queries pertaining to complex information domains often require further processing by a search engine. For such applications, we propose a novel Transformer based model capable of rescoring and rewriting, by exploring full context of the N-best hypotheses in parallel. We also propose a new discriminative sequence training objective that can work well for both rescore and rewrite tasks. We show that our Rescore+Rewrite model outperforms the Rescore-only baseline, and achieves up to an average 8.6% relative Word Error Rate (WER) reduction over the ASR system by itself.

arxiv情報

著者 Iwen E. Kang,Christophe Van Gysel,Man-Hung Siu
発行日 2024-06-12 13:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク