要約
エンドツーエンドの自動音声認識 (E2E ASR) システムでは、名前付きエンティティなどのドメイン固有のフレーズの誤って転写されることが多く、場合によっては下流のタスクで致命的な障害を引き起こすことがあります。
最近、ASR 用の高速かつ軽量の固有表現修正 (NEC) モデルのファミリーが提案されました。これは通常、音声レベルの編集距離アルゴリズムに基づいて構築されており、印象的な NEC パフォーマンスを示しています。
しかし、固有表現 (NE) リストが増大するにつれて、NE リストにおける音声の混乱の問題が悪化します。
たとえば、同音異義語の曖昧さが大幅に増加します。
これを考慮して、我々は、エンティティの説明を利用して追加情報を提供し、ASR 転写における NEC の音声混乱の軽減を促進する、新しい記述拡張名前付きエンティティ CorrEctoR (DANCER と呼ばれる) を提案しました。
この目的を達成するために、高密度検索モデルで構成される効率的なエンティティ記述拡張マスク言語モデル (EDA-MLM) が導入され、MLM が NEC タスクのドメイン固有エンティティに迅速に適応できるようになります。
AISHELL-1 および Homophone データセットに対して行われた一連の実験により、モデリング アプローチの有効性が確認されました。
DANCER は、強力なベースラインである音声編集距離ベースの NEC モデル (PED-NEC) を上回り、固有表現の場合、AISHELL-1 と比較して文字誤り率 (CER) が約 7% 減少します。
さらに注目すべきは、発音上の混乱が激しい固有表現を含む同音異義語でテストした場合、DANCER は固有表現について PED-NEC よりも相対的に 46% という顕著な CER 削減を示しています。
要約(オリジナル)
End-to-end automatic speech recognition (E2E ASR) systems often suffer from mistranscription of domain-specific phrases, such as named entities, sometimes leading to catastrophic failures in downstream tasks. A family of fast and lightweight named entity correction (NEC) models for ASR have recently been proposed, which normally build on phonetic-level edit distance algorithms and have shown impressive NEC performance. However, as the named entity (NE) list grows, the problems of phonetic confusion in the NE list are exacerbated; for example, homophone ambiguities increase substantially. In view of this, we proposed a novel Description Augmented Named entity CorrEctoR (dubbed DANCER), which leverages entity descriptions to provide additional information to facilitate mitigation of phonetic confusion for NEC on ASR transcription. To this end, an efficient entity description augmented masked language model (EDA-MLM) comprised of a dense retrieval model is introduced, enabling MLM to adapt swiftly to domain-specific entities for the NEC task. A series of experiments conducted on the AISHELL-1 and Homophone datasets confirm the effectiveness of our modeling approach. DANCER outperforms a strong baseline, the phonetic edit-distance-based NEC model (PED-NEC), by a character error rate (CER) reduction of about 7% relatively on AISHELL-1 for named entities. More notably, when tested on Homophone that contain named entities of high phonetic confusion, DANCER offers a more pronounced CER reduction of 46% relatively over PED-NEC for named entities.
arxiv情報
著者 | Yi-Cheng Wang,Hsin-Wei Wang,Bi-Cheng Yan,Chi-Han Lin,Berlin Chen |
発行日 | 2024-03-26 12:27:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google