VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System

要約

アラビア語は、世界中で 4 億 5,000 万人以上が話す、多くの種類と方言を持つ複雑な言語です。
言語の多様性とバリエーションのため、アラビア語用の堅牢で汎用的な ASR システムを構築することは困難です。
この研究では、アラビア語の方言識別 (DID) および自動音声認識 (ASR) を行う VoxArabica と呼ばれるシステムを開発およびデモすることで、このギャップに対処します。
HuBERT (DID)、Whisper、XLS-R (ASR) などの幅広いモデルを、アラビア語の DID および ASR タスクの教師あり設定でトレーニングします。
当社の DID モデルは、MSA に加えて 17 の異なる方言を識別するようにトレーニングされています。
MSA、エジプト、モロッコ、および混合データに基づいて ASR モデルを微調整します。
さらに、ASR の残りの方言については、ゼロショット設定で Whisper や MMS などのさまざまなモデルを選択するオプションを提供します。
これらのモデルを、音声録音、ファイルのアップロード、モデルの選択、不正な出力に対してフラグを立てるオプションなどのさまざまな機能を備えた単一の Web インターフェイスに統合します。
全体として、VoxArabica はアラビア語研究に関心のある幅広い聴衆にとって役立つと考えています。
私たちのシステムは現在 https://cdce-206-12-100-168.ngrok.io/ で実行されています。

要約(オリジナル)

Arabic is a complex language with many varieties and dialects spoken by over 450 millions all around the world. Due to the linguistic diversity and variations, it is challenging to build a robust and generalized ASR system for Arabic. In this work, we address this gap by developing and demoing a system, dubbed VoxArabica, for dialect identification (DID) as well as automatic speech recognition (ASR) of Arabic. We train a wide range of models such as HuBERT (DID), Whisper, and XLS-R (ASR) in a supervised setting for Arabic DID and ASR tasks. Our DID models are trained to identify 17 different dialects in addition to MSA. We finetune our ASR models on MSA, Egyptian, Moroccan, and mixed data. Additionally, for the remaining dialects in ASR, we provide the option to choose various models such as Whisper and MMS in a zero-shot setting. We integrate these models into a single web interface with diverse features such as audio recording, file upload, model selection, and the option to raise flags for incorrect outputs. Overall, we believe VoxArabica will be useful for a wide range of audiences concerned with Arabic research. Our system is currently running at https://cdce-206-12-100-168.ngrok.io/.

arxiv情報

著者 Abdul Waheed,Bashar Talafha,Peter Sullivan,AbdelRahim Elmadany,Muhammad Abdul-Mageed
発行日 2023-10-27 13:32:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク