CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice


自動音声認識 (ASR) の最近の進歩にもかかわらず、アクセントのある音声の認識は依然として主要な問題のままです。
より包括的な ASR システムを作成するために、より大きな ASR フレームワークの一部としてアクセント情報を統合すると、アクセントのある音声エラーの軽減につながる可能性があることが研究によって示されています。
ECAPA-TDNN および Wav2Vec 2.0/XLSR アーキテクチャを通じて多言語アクセント分類に取り組みます。これらのアーキテクチャは、さまざまな音声関連の下流タスクで適切に実行されることが証明されています。
Common Voice 7.0 (英語) および Common Voice 11.0 (イタリア語、ドイツ語、スペイン語) に基づくアクセント分類用の SpeechBrain ツールキットに合わせた、わかりやすいレシピを紹介します。
さらに、95% もの精度で英語のアクセントを分類するための新しい最先端の手法を確立します。
また、t-SNE を介した Wav2Vev 2.0 埋め込みの内部分類についても研究し、音韻の類似性に基づいたある程度のクラスタリングがあることに注目しました。
(私たちのレシピは SpeechBrain ツールキットのオープンソースです。参照:


Despite the recent advancements in Automatic Speech Recognition (ASR), the recognition of accented speech still remains a dominant problem. In order to create more inclusive ASR systems, research has shown that the integration of accent information, as part of a larger ASR framework, can lead to the mitigation of accented speech errors. We address multilingual accent classification through the ECAPA-TDNN and Wav2Vec 2.0/XLSR architectures which have been proven to perform well on a variety of speech-related downstream tasks. We introduce a simple-to-follow recipe aligned to the SpeechBrain toolkit for accent classification based on Common Voice 7.0 (English) and Common Voice 11.0 (Italian, German, and Spanish). Furthermore, we establish new state-of-the-art for English accent classification with as high as 95% accuracy. We also study the internal categorization of the Wav2Vev 2.0 embeddings through t-SNE, noting that there is a level of clustering based on phonological similarity. (Our recipe is open-source in the SpeechBrain toolkit, see:


著者 Juan Zuluaga-Gomez,Sara Ahmed,Danielius Visockas,Cem Subakan
発行日 2023-05-29 17:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク