ArTST: Arabic Text and Speech Transformer

要約

アラビア語のオープンソース音声技術をサポートするための、事前トレーニングされたアラビア語テキストおよび音声変換器である ArTST を紹介します。
モデル アーキテクチャは、英語向けに最近リリースされた統一モーダル フレームワーク SpeechT5 に従っており、現代標準アラビア語 (MSA) に重点を置いており、将来のエディションでは方言およびコード交換アラビア語にもモデルを拡張する予定です。
MSA の音声データとテキスト データでモデルを最初から事前トレーニングし、自動音声認識 (ASR)、テキスト音声合成 (TTS)、および話し言葉の方言識別のタスクに合わせて微調整しました。
ArTST と SpeechT5 を比較した実験、およびこれらのタスクで以前に報告された結果と比較したところ、ArTST は 3 つのタスクすべてにおいて現在の最先端のものと同等かそれを上回りました。
さらに、事前トレーニングが一般化に役立つことがわかりました。これは、リソースが少ない TTS タスクで特に顕著です。
事前トレーニングされたモデルと微調整された ASR モデルおよび TTS モデルが研究用にリリースされています。

要約(オリジナル)

We present ArTST, a pre-trained Arabic text and speech transformer for supporting open-source speech technologies for the Arabic language. The model architecture follows the unified-modal framework, SpeechT5, that was recently released for English, and is focused on Modern Standard Arabic (MSA), with plans to extend the model for dialectal and code-switched Arabic in future editions. We pre-trained the model from scratch on MSA speech and text data, and fine-tuned it for the following tasks: Automatic Speech Recognition (ASR), Text-To-Speech synthesis (TTS), and spoken dialect identification. In our experiments comparing ArTST with SpeechT5, as well as with previously reported results in these tasks, ArTST performs on a par with or exceeding the current state-of-the-art in all three tasks. Moreover, we find that our pre-training is conducive for generalization, which is particularly evident in the low-resource TTS task. The pre-trained model as well as the fine-tuned ASR and TTS models are released for research use.

arxiv情報

著者 Hawau Olamide Toyin,Amirbek Djanibekov,Ajinkya Kulkarni,Hanan Aldarmaki
発行日 2023-10-25 13:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク