Simple yet Effective Code-Switching Language Identification with Multitask Pre-Training and Transfer Learning

要約

コードスイッチング (コードミキシングとも呼ばれる) は、カジュアルな環境で、多言語話者が 1 回の発話で異なる言語の単語を混合する言語現象です。
コードスイッチングはその自発的な性質によりリソースが非常に少ないため、言語および音声処理タスクにとっては困難な問題となります。
このような状況では、既存の単一言語ツールを他のタスクに最大限に活用したい場合、コード交換言語識別 (CSLID) は困難ですが必要なタスクになります。
この研究では、英語と北京語の子供向け音声データセットの言語識別精度を向上させるための 2 つの新しいアプローチを提案します。
私たちの手法には、スタックされた残差 CNN+GRU モデルと、CSLID の補助タスクとして自動音声認識 (ASR) を使用するマルチタスク事前トレーニング アプローチが含まれています。
コードスイッチングにはリソースが少ないという性質があるため、両方の言語の単一言語コーパスを使用した慎重なシルバーデータ作成と、データ拡張としてのアップサンプリングも採用しています。
私たちは英語と中国語のコード交換データに焦点を当てていますが、私たちの方法はどの言語ペアでも機能します。
私たちの最良のモデルは、実際の英語 – 北京語コードスイッチング児童向け音声コーパスでバランスのとれた精度 0.781 を達成し、以前のベースラインを 55.3% 上回っています。

要約(オリジナル)

Code-switching, also called code-mixing, is the linguistics phenomenon where in casual settings, multilingual speakers mix words from different languages in one utterance. Due to its spontaneous nature, code-switching is extremely low-resource, which makes it a challenging problem for language and speech processing tasks. In such contexts, Code-Switching Language Identification (CSLID) becomes a difficult but necessary task if we want to maximally leverage existing monolingual tools for other tasks. In this work, we propose two novel approaches toward improving language identification accuracy on an English-Mandarin child-directed speech dataset. Our methods include a stacked Residual CNN+GRU model and a multitask pre-training approach to use Automatic Speech Recognition (ASR) as an auxiliary task for CSLID. Due to the low-resource nature of code-switching, we also employ careful silver data creation using monolingual corpora in both languages and up-sampling as data augmentation. We focus on English-Mandarin code-switched data, but our method works on any language pair. Our best model achieves a balanced accuracy of 0.781 on a real English-Mandarin code-switching child-directed speech corpus and outperforms the previous baseline by 55.3%.

arxiv情報

著者 Shuyue Stella Li,Cihan Xiao,Tianjian Li,Bismarck Odoom
発行日 2023-05-31 11:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク