Voice Conversion Improves Cross-Domain Robustness for Spoken Arabic Dialect Identification

要約

アラビア語の方言識別(ADI)システムは、アラビア語の品種のための包括的な音声技術の開発を可能にする大規模なデータ収集パイプラインに不可欠です。
ただし、現在のADIシステムの信頼性は、一般化が不十分なドメインスピーチに制限されています。
この論文では、最先端のパフォーマンスを達成し、クロスドメインシナリオの堅牢性を大幅に改善するADIモデルのトレーニングの音声変換に基づいた効果的なアプローチを提示します。
4つの異なるドメインにまたがる新しく収集された実世界のテストセットで評価されたこのアプローチは、ドメイン全体の精度が最大34.1%の一貫した改善をもたらします。
さらに、アプローチの分析を提示し、音声変換がADIデータセットのスピーカーバイアスを緩和するのに役立つことを実証します。
堅牢なADIモデルとクロスドメイン評価データセットをリリースして、アラビア語の包括的音声技術の開発をサポートします。

要約(オリジナル)

Arabic dialect identification (ADI) systems are essential for large-scale data collection pipelines that enable the development of inclusive speech technologies for Arabic language varieties. However, the reliability of current ADI systems is limited by poor generalization to out-of-domain speech. In this paper, we present an effective approach based on voice conversion for training ADI models that achieves state-of-the-art performance and significantly improves robustness in cross-domain scenarios. Evaluated on a newly collected real-world test set spanning four different domains, our approach yields consistent improvements of up to +34.1% in accuracy across domains. Furthermore, we present an analysis of our approach and demonstrate that voice conversion helps mitigate the speaker bias in the ADI dataset. We release our robust ADI model and cross-domain evaluation dataset to support the development of inclusive speech technologies for Arabic.

arxiv情報

著者 Badr M. Abdullah,Matthew Baas,Bernd Möbius,Dietrich Klakow
発行日 2025-05-30 15:36:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク