要約
最近開発された多言語の弱教師モデルである Whisper は、単言語設定と多言語設定の両方で複数の音声認識ベンチマークで良好なパフォーマンスを示すことが報告されています。
ただし、アラビア語などの評価対象言語であっても、さまざまな条件下で Whisper がどのように機能するかは不明です。
この研究では、ASR タスクのさまざまな種類のアラビア語音声で Whisper を包括的に評価することで、このギャップに対処します。
私たちの評価は、公的に入手可能なほとんどのアラビア語音声データを対象としており、n ショット (ゼロ、少数、および完全) 微調整の下で実行されます。
また、方言アクセントの標準アラビア語や、評価データを開発する未確認の方言など、まったく新しい条件下での Whisper の堅牢性も調査します。
私たちの実験では、Whisper のゼロショットはすべてのデータセットで完全に微調整された XLS-R モデルよりも優れたパフォーマンスを示しますが、5 つの目に見えない方言 (アルジェリア、ヨルダン、パレスチナ、UAE、イエメン) のゼロショット設定ではパフォーマンスが大幅に低下することがわかりました。
要約(オリジナル)
Whisper, the recently developed multilingual weakly supervised model, is reported to perform well on multiple speech recognition benchmarks in both monolingual and multilingual settings. However, it is not clear how Whisper would fare under diverse conditions even on languages it was evaluated on such as Arabic. In this work, we address this gap by comprehensively evaluating Whisper on several varieties of Arabic speech for the ASR task. Our evaluation covers most publicly available Arabic speech data and is performed under n-shot (zero-, few-, and full) finetuning. We also investigate the robustness of Whisper under completely novel conditions, such as in dialect-accented standard Arabic and in unseen dialects for which we develop evaluation data. Our experiments show that although Whisper zero-shot outperforms fully finetuned XLS-R models on all datasets, its performance deteriorates significantly in the zero-shot setting for five unseen dialects (i.e., Algeria, Jordan, Palestine, UAE, and Yemen).
arxiv情報
| 著者 | Bashar Talafha,Abdul Waheed,Muhammad Abdul-Mageed |
| 発行日 | 2023-06-05 14:09:25+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google