CB-Conformer: Contextual biasing Conformer for biased word recognition

要約

タイトル:バイアスワード認識のためのコンテクストバイアスコンフォーマー

要約:

– ソースとターゲットのドメインの不一致のため、バイアスワード情報を効果的に利用して自動音声認識モデルのパフォーマンスを向上させる方法については、研究の焦点となっている。
– 従来の手法では、外部の固定言語モデルを使用してデコードするか、サイズの大きなバイアスモジュールを導入することが多かったため、適応性が低く、推論が遅くなる。
– 本研究では、バニラコンフォーマーにコンテクストバイアスモジュールと自己適応言語モデルを導入することで、バイアスワード認識を改善するCB-Conformerを提案する。
– コンテクストバイアスモジュールは、音声フラグメントと文脈情報を組み合わせて、元のConformerの0.2%モデルパラメーターのみで実装される。
– 自己適応言語モデルは、再現率と適合率に基づいてバイアスワードの内部重みを修正し、標準の固定言語モデルよりもバイアスワードに焦点を合わせて、自動音声認識モデルとより成功した統合を実現する。
– また、WenetSpeechに基づいたオープンソースのマンダリンバイアスワードデータセットを構築して公開する。
– 実験の結果、提案手法は、ベースのConformerに比べて、文字エラーレートの15.34%の低下、バイアスワード再現率の14.13%の増加、バイアスワードF1スコアの6.80%の増加をもたらすことが示された。

要約(オリジナル)

Due to the mismatch between the source and target domains, how to better utilize the biased word information to improve the performance of the automatic speech recognition model in the target domain becomes a hot research topic. Previous approaches either decode with a fixed external language model or introduce a sizeable biasing module, which leads to poor adaptability and slow inference. In this work, we propose CB-Conformer to improve biased word recognition by introducing the Contextual Biasing Module and the Self-Adaptive Language Model to vanilla Conformer. The Contextual Biasing Module combines audio fragments and contextual information, with only 0.2% model parameters of the original Conformer. The Self-Adaptive Language Model modifies the internal weights of biased words based on their recall and precision, resulting in a greater focus on biased words and more successful integration with the automatic speech recognition model than the standard fixed language model. In addition, we construct and release an open-source Mandarin biased-word dataset based on WenetSpeech. Experiments indicate that our proposed method brings a 15.34% character error rate reduction, a 14.13% biased word recall increase, and a 6.80% biased word F1-score increase compared with the base Conformer.

arxiv情報

著者 Yaoxun Xu,Baiji Liu,Qiaochu Huang and,Xingchen Song,Zhiyong Wu,Shiyin Kang,Helen Meng
発行日 2023-04-25 07:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク