Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn’t

要約

どのような言語的要因が自動音声認識 (ASR) モデルのパフォーマンスに影響を与えるかを調査します。
私たちは、正書法と音韻の複雑さの両方が精度を低下させると仮説を立てています。
これを調べるために、15 の書記体系を持つ 25 の言語で多言語の自己教師あり事前トレーニング済みモデル Wav2Vec2-XLSR-53 を微調整し、それらの ASR 精度、書記素数、ユニグラム書記素エントロピー、表語性 (単語/形態素の量) を比較します。
-レベル情報は書記体系でエンコードされます)、および音素の数。
結果は、正書法の複雑さは低い ASR 精度と有意な相関関係がある一方、音韻の複雑さは有意な相関関係を示さないことを示しています。

要約(オリジナル)

We investigate what linguistic factors affect the performance of Automatic Speech Recognition (ASR) models. We hypothesize that orthographic and phonological complexities both degrade accuracy. To examine this, we fine-tune the multilingual self-supervised pretrained model Wav2Vec2-XLSR-53 on 25 languages with 15 writing systems, and we compare their ASR accuracy, number of graphemes, unigram grapheme entropy, logographicity (how much word/morpheme-level information is encoded in the writing system), and number of phonemes. The results demonstrate that orthographic complexities significantly correlate with low ASR accuracy, while phonological complexity shows no significant correlation.

arxiv情報

著者 Chihiro Taguchi,David Chiang
発行日 2024-06-13 14:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク