Exploring SSL Discrete Tokens for Multilingual ASR

要約

音声関連タスクにおける自己教師あり学習 (SSL) の進歩に伴い、より高速な処理技術を提供するため、SSL によって生成された個別トークンを自動音声認識 (ASR) に利用することへの関心が高まっています。
ただし、以前の研究は主に Fbank 機能を備えた多言語 ASR または離散トークンを備えた英語 ASR に焦点を当てており、離散トークンを多言語 ASR シナリオに適応させるにはギャップが残されていました。
この調査では、複数の言語ドメインにわたるさまざまな主要な SSL モデルによって生成された個別トークンの包括的な比較が示されています。
私たちは、単言語と多言語の両方の ASR シナリオについて、複数の言語ドメインにわたる音声個別トークンのパフォーマンスと効率を調査することを目的としています。
実験結果は、離散トークンが 7 つの言語ドメインにわたる ASR タスクで Fbank 機能でトレーニングされたシステムと同等の結果を達成し、開発時および開発時で平均単語誤り率 (WER) が 0.31% および絶対 1.76% (相対的に 2.80% および 15.70%) 削減されたことを示しています。
特にポーランドのテスト セットでは WER が絶対 6.82% (相対 41.48%) 減少しました。

要約(オリジナル)

With the advancement of Self-supervised Learning (SSL) in speech-related tasks, there has been growing interest in utilizing discrete tokens generated by SSL for automatic speech recognition (ASR), as they offer faster processing techniques. However, previous studies primarily focused on multilingual ASR with Fbank features or English ASR with discrete tokens, leaving a gap in adapting discrete tokens for multilingual ASR scenarios. This study presents a comprehensive comparison of discrete tokens generated by various leading SSL models across multiple language domains. We aim to explore the performance and efficiency of speech discrete tokens across multiple language domains for both monolingual and multilingual ASR scenarios. Experimental results demonstrate that discrete tokens achieve comparable results against systems trained on Fbank features in ASR tasks across seven language domains with an average word error rate (WER) reduction of 0.31% and 1.76% absolute (2.80% and 15.70% relative) on dev and test sets respectively, with particularly WER reduction of 6.82% absolute (41.48% relative) on the Polish test set.

arxiv情報

著者 Mingyu Cui,Daxin Tan,Yifan Yang,Dingdong Wang,Huimeng Wang,Xiao Chen,Xie Chen,Xunying Liu
発行日 2024-09-13 13:13:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク