Diacritic Recognition Performance in Arabic ASR

要約

アラビア語自動音声認識 (ASR) システムにおける分音符号認識パフォーマンスの分析を提示します。
ほとんどの既存のアラビア語音声コーパスには、アラビア文字の短母音やその他の音声情報を表すすべての分音記号が含まれているわけではないため、現在の最先端の ASR モデルでは、出力に完全な分音記号が生成されません。
テキストベースの自動発音記号化は、以前は、発音記号化された ASR をトレーニングするための前処理ステップとして、または結果の ASR 仮説を​​発音記号化するための後処理ステップとして使用されていました。
一般に、入力の分音符号化は ASR のパフォーマンスを低下させると考えられていますが、ASR のパフォーマンスとは無関係に、ASR の分音符号化パフォーマンスの体系的な評価はこれまで実施されていません。
この論文では、入力分音符号化が実際にASR品質を低下させるかどうかを実験的に明らかにし、後処理ステップとして分音符号認識性能をテキストベースの分音符号化と比較しようとします。
事前トレーニング済みのアラビア語 ASR モデルから始めて、手動、自動、分音記号なしなど、さまざまな分音記号化条件で文字起こしされた音声データを微調整します。
カバレッジと精度の指標を使用して、ASR パフォーマンス全体から分音記号認識パフォーマンスを分離します。
特にASRモデルが手動で分音記号化されたトランスクリプトで微調整されている場合、ASR分音記号化は後処理でテキストベースの分音記号化よりも大幅に優れていることがわかります。

要約(オリジナル)

We present an analysis of diacritic recognition performance in Arabic Automatic Speech Recognition (ASR) systems. As most existing Arabic speech corpora do not contain all diacritical marks, which represent short vowels and other phonetic information in Arabic script, current state-of-the-art ASR models do not produce full diacritization in their output. Automatic text-based diacritization has previously been employed both as a pre-processing step to train diacritized ASR, or as a post-processing step to diacritize the resulting ASR hypotheses. It is generally believed that input diacritization degrades ASR performance, but no systematic evaluation of ASR diacritization performance, independent of ASR performance, has been conducted to date. In this paper, we attempt to experimentally clarify whether input diacritiztation indeed degrades ASR quality, and to compare the diacritic recognition performance against text-based diacritization as a post-processing step. We start with pre-trained Arabic ASR models and fine-tune them on transcribed speech data with different diacritization conditions: manual, automatic, and no diacritization. We isolate diacritic recognition performance from the overall ASR performance using coverage and precision metrics. We find that ASR diacritization significantly outperforms text-based diacritization in post-processing, particularly when the ASR model is fine-tuned with manually diacritized transcripts.

arxiv情報

著者 Hanan Aldarmaki,Ahmad Ghannam
発行日 2023-02-27 18:27:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク