Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR

要約

自己教師あり学習 (SSL) ベースの離散音声表現は非常にコンパクトで、ドメイン適応性があります。
この論文では、WavLM モデルから抽出された SSL 離散音声特徴が、Zipformer-Transducer ASR システムの追加のクロス発話音響コンテキスト特徴として使用されます。
発話間のコンテキスト (先行セグメントと将来のセグメントから)、現在の発話の内部コンテキストのみ、またはその両方を同時にモデル化するために、Fbank 特徴を離散トークン特徴に置き換えることの有効性は、Gigaspeech 1000 時間コーパスで徹底的に実証されています。
離散トークンベースのクロス発話コンテキスト機能を使用した最良の Zipformer-Transducer システムは、発話内部コンテキストのみを使用したベースラインを上回り、統計的に有意な単語誤り率 (WER) が絶対値 0.32% ~ 0.41% (相対値 2.78% ~ 3.54%) 減少しました。
開発データとテストデータ。
公開されている最も低い WER は、開発セットとテスト セットで 11.15% と 11.14% でした。
私たちの成果はオープンソースであり、https://github.com/open-creator/icefall/tree/master/egs/gigaspeech/Context\_ASR で公開されています。

要約(オリジナル)

Self-supervised learning (SSL) based discrete speech representations are highly compact and domain adaptable. In this paper, SSL discrete speech features extracted from WavLM models are used as additional cross-utterance acoustic context features in Zipformer-Transducer ASR systems. The efficacy of replacing Fbank features with discrete token features for modelling either cross-utterance contexts (from preceding and future segments), or current utterance’s internal contexts alone, or both at the same time, are demonstrated thoroughly on the Gigaspeech 1000-hr corpus. The best Zipformer-Transducer system using discrete tokens based cross-utterance context features outperforms the baseline using utterance internal context only with statistically significant word error rate (WER) reductions of 0.32% to 0.41% absolute (2.78% to 3.54% relative) on the dev and test data. The lowest published WER of 11.15% and 11.14% were obtained on the dev and test sets. Our work is open-source and publicly available at https://github.com/open-creator/icefall/tree/master/egs/gigaspeech/Context\_ASR.

arxiv情報

著者 Mingyu Cui,Yifan Yang,Jiajun Deng,Jiawen Kang,Shujie Hu,Tianzi Wang,Zhaoqing Li,Shiliang Zhang,Xie Chen,Xunying Liu
発行日 2024-09-13 13:01:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク