CB-Whisper: Contextual Biasing Whisper using TTS-based Keyword Spotting

要約

エンドツーエンドの自動音声認識 (ASR) システムは、トレーニング データで頻繁に出現しない個人名、組織、専門用語などの珍しい名前エンティティを認識するのに苦労することがよくあります。
この論文では、デコーダーの前にキーワード スポッティング (KWS) を実行する OpenAI の Whisper モデルに基づく新しい ASR システムである Contextual Biasing Whisper (CB-Whisper) について説明します。
KWS モジュールは、Text-to-Speech (TTS) 技術と畳み込みニューラル ネットワーク (CNN) 分類器を利用して、エンティティと発話間の特徴を照合します。
実験では、予測されたエンティティを慎重に設計された音声形式プロンプトに組み込むことにより、Whisper モデルの混合エラー率 (MER) とエンティティ再現率が、英語のみをカバーする 3 つの内部データセットと 2 つのオープンソース データセットで大幅に改善されることが実証されています。
中国語のみのコードスイッチングシナリオ。

要約(オリジナル)

End-to-end automatic speech recognition (ASR) systems often struggle to recognize rare name entities, such as personal names, organizations, or technical terms that are not frequently encountered in the training data. This paper presents Contextual Biasing Whisper (CB-Whisper), a novel ASR system based on OpenAI’s Whisper model that performs keyword-spotting (KWS) before the decoder. The KWS module leverages text-to-speech (TTS) techniques and a convolutional neural network (CNN) classifier to match the features between the entities and the utterances. Experiments demonstrate that by incorporating predicted entities into a carefully designed spoken form prompt, the mixed-error-rate (MER) and entity recall of the Whisper model is significantly improved on three internal datasets and two open-sourced datasets that cover English-only, Chinese-only, and code-switching scenarios.

arxiv情報

著者 Yuang Li,Yinglu Li,Min Zhang,Chang Su,Mengyao Piao,Xiaosong Qiao,Jiawei Yu,Miaomiao Ma,Yanqing Zhao,Hao Yang
発行日 2023-09-18 08:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク