Dialectal Coverage And Generalization in Arabic Speech Recognition

要約

豊かな方言多様性を特徴とし、音声技術においてリソースが少ない言語とみなされがちなアラビア語向けの堅牢な自動音声認識 (ASR) システムを開発するには、その複雑さを管理するための効果的な戦略が必要です。
この研究では、ASR のパフォーマンスに影響を与える 3 つの重要な要素、つまり事前トレーニングにおける方言カバレッジの役割、複数方言アプローチと比較した方言固有の微調整の有効性、および目に見えない方言に一般化する能力を調査します。
さまざまな方言の組み合わせにわたる広範な実験を通じて、私たちの発見は、アラビア語のような多中心言語の ASR システムの開発を進めるための重要な洞察を提供します。

要約(オリジナル)

Developing robust automatic speech recognition (ASR) systems for Arabic, a language characterized by its rich dialectal diversity and often considered a low-resource language in speech technology, demands effective strategies to manage its complexity. This study explores three critical factors influencing ASR performance: the role of dialectal coverage in pre-training, the effectiveness of dialect-specific fine-tuning compared to a multi-dialectal approach, and the ability to generalize to unseen dialects. Through extensive experiments across different dialect combinations, our findings offer key insights towards advancing the development of ASR systems for pluricentric languages like Arabic.

arxiv情報

著者 Amirbek Djanibekov,Hawau Olamide Toyin,Raghad Alshalan,Abdullah Alitr,Hanan Aldarmaki
発行日 2024-12-04 15:56:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク