要約
自動音声認識 (ASR) を利用したオンデバイスの仮想アシスタント (VA) には、困難なエンティティが豊富なクエリ認識のための効果的な知識の統合が必要です。
この論文では、さまざまなカテゴリの言語モデル (LM) (N グラム ワード LM、サブワード ニューラル LM) を使用して、音声情報ドメイン クエリのサーバー側スコアリングのためのモデリング戦略の実証的研究を行います。
オンデバイスとサーバー側の信号の組み合わせを調査し、さまざまなサーバー側 LM を統合することで、オンデバイスのみで ASR を実行する場合と比較して、さまざまなエンティティ中心のクエリ部分母集団で 23% ~ 35% の WER の大幅な改善を実証しました。
また、ドメイン データでトレーニングされた LM と、OpenAI がベースラインとして提供する GPT-3 バリアントとの比較も実行します。
さらに、ゼロからトレーニングされた複数のサーバー側 LM のモデル融合が各モデルの補完的な長所を最も効果的に組み合わせ、ドメイン固有のデータから学習した知識を VA ASR システムに統合することも示します。
要約(オリジナル)
On-device Virtual Assistants (VAs) powered by Automatic Speech Recognition (ASR) require effective knowledge integration for the challenging entity-rich query recognition. In this paper, we conduct an empirical study of modeling strategies for server-side rescoring of spoken information domain queries using various categories of Language Models (LMs) (N-gram word LMs, sub-word neural LMs). We investigate the combination of on-device and server-side signals, and demonstrate significant WER improvements of 23%-35% on various entity-centric query subpopulations by integrating various server-side LMs compared to performing ASR on-device only. We also perform a comparison between LMs trained on domain data and a GPT-3 variant offered by OpenAI as a baseline. Furthermore, we also show that model fusion of multiple server-side LMs trained from scratch most effectively combines complementary strengths of each model and integrates knowledge learned from domain-specific data to a VA ASR system.
arxiv情報
著者 | Youyuan Zhang,Sashank Gondala,Thiago Fraga-Silva,Christophe Van Gysel |
発行日 | 2023-11-02 17:07:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google