Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning

要約

自動音声認識(ASR)は、会話エージェント、産業用ロボット工学、コールセンターオートメーション、自動字幕などの多様なアプリケーションでのヒューマンマシン相互作用に不可欠です。
ただし、特にアラビア語のような低リソース言語では、大規模でラベル付けされた音声データセットが不足しているため、高性能のASRモデルを開発することは依然として困難です。
この作業では、コンフォーマーアーキテクチャを使用してアラビア語のASRモデルを訓練するために、弱く監視された学習を採用しています。
私たちのモデルは、最新の標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする15,000時間の弱い注釈付き音声データでゼロから訓練されており、高価な手動転写の必要性を排除します。
人間が検証したラベルがないにもかかわらず、私たちのアプローチは最先端の(SOTA)パフォーマンスを達成し、標準ベンチマークでアラビアASRの分野での以前のすべての努力を超えています。
従来の監視されたアプローチに代わるスケーラブルで費用効率の高い代替品としての弱い監督の有効性を実証することにより、低リソース設定でのASRシステムの改善への道を開くことにより。

要約(オリジナル)

Automatic speech recognition (ASR) is crucial for human-machine interaction in diverse applications like conversational agents, industrial robotics, call center automation, and automated subtitling. However, developing high-performance ASR models remains challenging, particularly for low-resource languages like Arabic, due to the scarcity of large, labeled speech datasets, which are costly and labor-intensive to produce. In this work, we employ weakly supervised learning to train an Arabic ASR model using the Conformer architecture. Our model is trained from scratch on 15,000 hours of weakly annotated speech data covering both Modern Standard Arabic (MSA) and Dialectal Arabic (DA), eliminating the need for costly manual transcriptions. Despite the absence of human-verified labels, our approach attains state-of-the-art (SOTA) performance, exceeding all previous efforts in the field of Arabic ASR on the standard benchmarks. By demonstrating the effectiveness of weak supervision as a scalable, cost-efficient alternative to traditional supervised approaches, paving the way for improved ASR systems in low resource settings.

arxiv情報

著者 Mahmoud Salhab,Marwan Elghitany,Shameed Sait,Syed Sibghat Ullah,Mohammad Abusheikh,Hasan Abusheikh
発行日 2025-04-16 17:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク