CB-Conformer: Contextual biasing Conformer for biased word recognition

要約

タイトル: CB-Conformer:バイアス語認識のための文脈的バイアスConformer

要約:
– ソースとターゲットのドメインの不一致により、自動音声認識モデルのパフォーマンスを向上させるために偏見のある単語情報をうまく活用する方法は、研究のホットなトピックとなっています。
– 以前のアプローチは、外部言語モデルを固定してデコードするか、大きなバイアスモジュールを導入することであり、適応性が低く推論が遅くなることがありました。
– 本研究では、Vanilla ConformerにContextual Biasing ModuleとSelf-Adaptive Language Modelを導入して、バイアス語の認識を改善するCB-Conformerを提案しています。
– Contextual Biasing Moduleは、オーディオフラグメントと文脈情報を組み合わせたものであり、0.2%のモデルパラメーターで元のConformerに比べ高い精度を実現します。
– Self-Adaptive Language Modelは、バイアス語の再現率と適合率に基づいてバイアス語の内部重みを修正し、標準の固定言語モデルよりもバイアス語に焦点を当て、自動音声認識モデルとの統合を成功させます。
– さらに、我々はWenetSpeechに基づいて、オープンソースのMandarinバイアスワードデータセットを構築してリリースしています。実験結果は、CB-ConformerがConformerと比較して文字エラーレートが15.34%減少し、バイアス語再現率が14.13%増加し、バイアス語F1スコアが6.80%増加することを示しています。

要約(オリジナル)

Due to the mismatch between the source and target domains, how to better utilize the biased word information to improve the performance of the automatic speech recognition model in the target domain becomes a hot research topic. Previous approaches either decode with a fixed external language model or introduce a sizeable biasing module, which leads to poor adaptability and slow inference. In this work, we propose CB-Conformer to improve biased word recognition by introducing the Contextual Biasing Module and the Self-Adaptive Language Model to vanilla Conformer. The Contextual Biasing Module combines audio fragments and contextual information, with only 0.2% model parameters of the original Conformer. The Self-Adaptive Language Model modifies the internal weights of biased words based on their recall and precision, resulting in a greater focus on biased words and more successful integration with the automatic speech recognition model than the standard fixed language model. In addition, we construct and release an open-source Mandarin biased-word dataset based on WenetSpeech. Experiments indicate that our proposed method brings a 15.34% character error rate reduction, a 14.13% biased word recall increase, and a 6.80% biased word F1-score increase compared with the base Conformer.

arxiv情報

著者 Yaoxun Xu,Baiji Liu,Qiaochu Huang and,Xingchen Song,Zhiyong Wu,Shiyin Kang,Helen Meng
発行日 2023-04-19 12:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク