Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation

要約

ASR モデルの展開環境は絶えず変化しており、着信音声はセッション中に異なるドメイン間で切り替えられる可能性があります。
これは、ターゲット ドメインのテキスト データしか利用できない場合、効果的なドメイン適応に課題をもたらします。私たちの目的は、ターゲット ドメインのパフォーマンスを明らかに改善し、一般ドメインのパフォーマンスをそれほど損なわないようにすることです。
この論文では、内部言語モデル推定ベースの適応ドメイン適応 (ILME-ADA) と呼ばれる適応 LM 融合アプローチを提案します。
このような ILME-ADA を実現するために、補間された対数尤度スコアが、内部 LM と外部 LM (ELM) からのスコアの最大値に基づいて計算されます。
2つのドメイン固有(ターゲット)テストセットで、ニューラルネットワークとn-gram LMをそれぞれELMとして使用するRNN-TおよびLASモデリングフレームワークの両方を使用して、提案されたILME-ADAメソッドの有効性を示します。
提案された方法は、浅いテスト セットと ILME ベースの LM 融合方法の両方と比較して、一般的なテスト セットでのパフォーマンスの低下を最小限に抑えながら、ターゲット テスト セットで大幅に優れたパフォーマンスを達成できます。

要約(オリジナル)

ASR model deployment environment is ever-changing, and the incoming speech can be switched across different domains during a session. This brings a challenge for effective domain adaptation when only target domain text data is available, and our objective is to obtain obviously improved performance on the target domain while the performance on the general domain is less undermined. In this paper, we propose an adaptive LM fusion approach called internal language model estimation based adaptive domain adaptation (ILME-ADA). To realize such an ILME-ADA, an interpolated log-likelihood score is calculated based on the maximum of the scores from the internal LM and the external LM (ELM) respectively. We demonstrate the efficacy of the proposed ILME-ADA method with both RNN-T and LAS modeling frameworks employing neural network and n-gram LMs as ELMs respectively on two domain specific (target) test sets. The proposed method can achieve significantly better performance on the target test sets while it gets minimal performance degradation on the general test set, compared with both shallow and ILME-based LM fusion methods.

arxiv情報

著者 Rao Ma,Xiaobo Wu,Jin Qiu,Yanan Qin,Haihua Xu,Peihao Wu,Zejun Ma
発行日 2023-03-02 11:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク