要約
低リソースのアクセント音声認識は、実際のアプリケーションにおいて現在の ASR テクノロジーが直面する重要な課題の 1 つです。
この研究では、大規模なアクセントのないトレーニング データと限定されたアクセントのあるトレーニング データの両方からの音響情報を活用する、Aformer と呼ばれる Conformer ベースのアーキテクチャを提案します。
具体的には、前者では、相補的な音響情報を抽出するために、一般エンコーダとアクセントエンコーダが設計されている。
さらに、マルチパス方式で Aformer をトレーニングし、一般エンコーダとアクセントエンコーダの両方からの情報を効果的に組み合わせる 3 つの相互情報融合方法を調査することを提案します。
すべての実験は、アクセントのある英語と北京語の両方の ASR タスクで行われます。
結果は、私たちが提案した方法が、6 つのドメイン内およびドメイン外のアクセント付きテスト セットにおいて、単語/文字エラー率を相対的に 10.2% ~ 24.5% 削減するという強力な Conformer ベースラインを上回っていることを示しています。
要約(オリジナル)
Low-resource accented speech recognition is one of the important challenges faced by current ASR technology in practical applications. In this study, we propose a Conformer-based architecture, called Aformer, to leverage both the acoustic information from large non-accented and limited accented training data. Specifically, a general encoder and an accent encoder are designed in the Aformer to extract complementary acoustic information. Moreover, we propose to train the Aformer in a multi-pass manner, and investigate three cross-information fusion methods to effectively combine the information from both general and accent encoders. All experiments are conducted on both the accented English and Mandarin ASR tasks. Results show that our proposed methods outperform the strong Conformer baseline by relative 10.2% to 24.5% word/character error rate reduction on six in-domain and out-of-domain accented test sets.
arxiv情報
著者 | Xuefei Wang,Yanhua Long,Yijie Li,Haoran Wei |
発行日 | 2023-06-20 06:08:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google