Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition

要約

方言に対する効果的な自動音声認識 (ASR) ソリューションを作成するには、データ不足の問題に対処するだけでなく、言語の多様性の複雑さを克服する革新的なアプローチが必要です。
この論文では、チュニジアの方言に焦点を当てて、前述の ASR の課題に取り組みます。
まず、テキスト データと音声データが収集され、場合によっては注釈が付けられます。
次に、さまざまなチュニジアのテストセットで最先端の技術を推進するための、自己監視、半監視、および少数ショットのコードスイッチングアプローチを検討します。
さまざまな音響、言語、韻律条件をカバーします。
最後に、従来のスペルが存在しないことを考慮して、テスト参照におけるスペルの不備から生じるノイズを避けるために、トランスクリプトの人間による評価を作成します。
私たちのモデルは、チュニジア語のアラビア語、英語、フランス語を含む言語混合でオーディオ サンプルを転写することを可能にし、トレーニングとテスト中に使用されたすべてのデータは、一般利用とさらなる改善のためにリリースされます。

要約(オリジナル)

Crafting an effective Automatic Speech Recognition (ASR) solution for dialects demands innovative approaches that not only address the data scarcity issue but also navigate the intricacies of linguistic diversity. In this paper, we address the aforementioned ASR challenge, focusing on the Tunisian dialect. First, textual and audio data is collected and in some cases annotated. Second, we explore self-supervision, semi-supervision and few-shot code-switching approaches to push the state-of-the-art on different Tunisian test sets; covering different acoustic, linguistic and prosodic conditions. Finally, and given the absence of conventional spelling, we produce a human evaluation of our transcripts to avoid the noise coming from spelling inadequacies in our testing references. Our models, allowing to transcribe audio samples in a linguistic mix involving Tunisian Arabic, English and French, and all the data used during training and testing are released for public use and further improvements.

arxiv情報

著者 Ahmed Amine Ben Abdallah,Ata Kabboudi,Amir Kanoun,Salah Zaiem
発行日 2023-09-20 13:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク