CATT: Character-based Arabic Tashkeel Transformer

要約

Tashkeel (Arabic Text Diacritization (ATD)) は、曖昧さを取り除き、曖昧さがないために生じる誤訳のリスクを最小限に抑えることで、アラビア語テキストの理解力を大幅に向上させます。特に音声合成や機械翻訳などのアプリケーションにおいて、アラビア語のテキスト処理を改善する上で重要な役割を果たす。本稿では、ATDモデルを学習するための新しいアプローチを紹介する。まず、事前に訓練した文字ベースのBERTから初期化したエンコーダオンリーとエンコーダデコーダの2つの変換器を微調整した。次に、Noisy-Student アプローチを適用して、最良のモデルの性能を向上させた。2つの手動ラベル付けベンチマークデータセットを用いて、11の商用およびオープンソースモデルと並んで我々のモデルを評価した:WikiNewsと我々のCATTデータセットである。その結果、WikiNewsでは30.83%、CATTでは35.21%という相対的なダイアクリティック・エラー率(DER)によって、我々のトップモデルがすべての評価モデルを上回り、ATDにおいて最先端を達成した。さらに、CATTデータセットにおいて、我々のモデルがGPT-4-turboを9.36%の相対DERで上回ることを示す。研究コミュニティfootnote{https://github.com/abjadai/catt}のために、我々のCATTモデルとベンチマークデータセットをオープンソース化する。

要約(オリジナル)

Tashkeel, or Arabic Text Diacritization (ATD), greatly enhances the comprehension of Arabic text by removing ambiguity and minimizing the risk of misinterpretations caused by its absence. It plays a crucial role in improving Arabic text processing, particularly in applications such as text-to-speech and machine translation. This paper introduces a new approach to training ATD models. First, we finetuned two transformers, encoder-only and encoder-decoder, that were initialized from a pretrained character-based BERT. Then, we applied the Noisy-Student approach to boost the performance of the best model. We evaluated our models alongside 11 commercial and open-source models using two manually labeled benchmark datasets: WikiNews and our CATT dataset. Our findings show that our top model surpasses all evaluated models by relative Diacritic Error Rates (DERs) of 30.83\% and 35.21\% on WikiNews and CATT, respectively, achieving state-of-the-art in ATD. In addition, we show that our model outperforms GPT-4-turbo on CATT dataset by a relative DER of 9.36\%. We open-source our CATT models and benchmark dataset for the research community\footnote{https://github.com/abjadai/catt}.

arxiv情報

著者 Faris Alasmary,Orjuwan Zaafarani,Ahmad Ghannam
発行日 2024-07-03 16:05:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク