Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text


この論文では、入力内のオプションの発音記号を効果的にサポートしてすべての予測を通知できるマルチソース モデルである 2SDiac を提案します。
また、さまざまなレベルのランダム マスキングを使用して入力内の特定の発音記号を活用するトレーニング スキームであるガイド付き学習も紹介します。
さらに、2 つの一般的なベンチマークでの実験では、i) 発音区別符号化されていないテキストで評価した場合にも、私たちのアプローチがベースラインを大幅に上回るパフォーマンスを示すことが示されています。
ii) パラメータ数を 60% 以上削減しながら最先端の結果を達成します。


Automatic Arabic diacritization is useful in many applications, ranging from reading support for language learners to accurate pronunciation predictor for downstream tasks like speech synthesis. While most of the previous works focused on models that operate on raw non-diacritized text, production systems can gain accuracy by first letting humans partly annotate ambiguous words. In this paper, we propose 2SDiac, a multi-source model that can effectively support optional diacritics in input to inform all predictions. We also introduce Guided Learning, a training scheme to leverage given diacritics in input with different levels of random masking. We show that the provided hints during test affect more output positions than those annotated. Moreover, experiments on two common benchmarks show that our approach i) greatly outperforms the baseline also when evaluated on non-diacritized text; and ii) achieves state-of-the-art results while reducing the parameter count by over 60%.


著者 Parnia Bahar,Mattia Di Gangi,Nick Rossenbach,Mohammad Zeineldeen
発行日 2023-06-06 10:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク