要約
話者の母語 (L1) と非母語 (L2) の間の音韻の不一致は、発音の誤りの主な要因となります。
このペーパーでは、L1 対応の音声表現を強化した新しい多言語 MDD アーキテクチャ、L1-MultiMDD を紹介します。
エンドツーエンドの音声エンコーダは、入力信号とそれに対応する参照音素シーケンスでトレーニングされます。
まず、入力オーディオを参照音素シーケンスと位置合わせするためにアテンション メカニズムが展開されます。
その後、L1-L2 音声埋め込みが補助モデルから抽出され、L1 言語と L2 言語を識別するマルチタスク設定で事前トレーニングされ、プライマリ ネットワークに組み込まれます。
最後に、L1-MultiMDD は、ターゲット言語 (英語、アラビア語、北京語) のコネクショニスト時間分類 (CTC) 損失を使用して、統合多言語音素認識タスク用に最適化されます。
私たちの実験では、提案された L1-MultiMDD フレームワークが、L2-ARTIC、LATIC、および AraVoiceL2v2 の両方で有効であることを実証しました。
そして目に見えない — EpaDB と Speechocean762 データセット。
すべてのターゲット言語にわたる PER と本人拒否率 (FRR) の一貫した向上により、私たちのアプローチの堅牢性、有効性、一般化可能性が裏付けられます。
要約(オリジナル)
The phonological discrepancies between a speaker’s native (L1) and the non-native language (L2) serves as a major factor for mispronunciation. This paper introduces a novel multilingual MDD architecture, L1-MultiMDD, enriched with L1-aware speech representation. An end-to-end speech encoder is trained on the input signal and its corresponding reference phoneme sequence. First, an attention mechanism is deployed to align the input audio with the reference phoneme sequence. Afterwards, the L1-L2-speech embedding are extracted from an auxiliary model, pretrained in a multi-task setup identifying L1 and L2 language, and are infused with the primary network. Finally, the L1-MultiMDD is then optimized for a unified multilingual phoneme recognition task using connectionist temporal classification (CTC) loss for the target languages: English, Arabic, and Mandarin. Our experiments demonstrate the effectiveness of the proposed L1-MultiMDD framework on both seen — L2-ARTIC, LATIC, and AraVoiceL2v2; and unseen — EpaDB and Speechocean762 datasets. The consistent gains in PER, and false rejection rate (FRR) across all target languages confirm our approach’s robustness, efficacy, and generalizability.
arxiv情報
著者 | Yassine El Kheir,Shammur Absar Chwodhury,Ahmed Ali |
発行日 | 2023-09-14 13:53:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google