Lenient Evaluation of Japanese Speech Recognition: Modeling Naturally Occurring Spelling Inconsistency

要約

単語誤り率 (WER) と文字誤り率 (CER) は音声認識 (ASR) の標準的な指標ですが、常に代替スペルの問題が 1 つあります。グラウンド トゥルースにはアドバイザーがあるのに、システムがアドバイザーを書き写した場合、これはエラーとしてカウントされます。
たとえ 2 つのスペルが実際には同じ単語を表しているとしてもです。
日本語は「正書法に欠けている」ことで有名です。ほとんどの単語は複数の方法で綴ることができ、正確な ASR 評価には問題が生じます。
この論文では、日本のASRに対するより防御可能なCER尺度として、新しい寛大な評価指標を提案します。
私たちは、語彙リソース、日本語テキスト処理システム、およびひらがなまたはカタカナから漢字を再構成するためのニューラル機械翻訳モデルを組み合わせて、参照転写のもっともらしい再綴りの格子を作成します。
手作業による評価では、評価者は提案された綴りのバリエーションの 95.4% がもっともらしいと評価しました。
ASR の結果は、単語の有効な代替スペルを選択することに対してシステムにペナルティを課さない私たちの方法が、タスクに応じて CER の絶対値を 2.4% ~ 3.1% 削減できることを示しています。

要約(オリジナル)

Word error rate (WER) and character error rate (CER) are standard metrics in Speech Recognition (ASR), but one problem has always been alternative spellings: If one’s system transcribes adviser whereas the ground truth has advisor, this will count as an error even though the two spellings really represent the same word. Japanese is notorious for “lacking orthography”: most words can be spelled in multiple ways, presenting a problem for accurate ASR evaluation. In this paper we propose a new lenient evaluation metric as a more defensible CER measure for Japanese ASR. We create a lattice of plausible respellings of the reference transcription, using a combination of lexical resources, a Japanese text-processing system, and a neural machine translation model for reconstructing kanji from hiragana or katakana. In a manual evaluation, raters rated 95.4% of the proposed spelling variants as plausible. ASR results show that our method, which does not penalize the system for choosing a valid alternate spelling of a word, affords a 2.4%-3.1% absolute reduction in CER depending on the task.

arxiv情報

著者 Shigeki Karita,Richard Sproat,Haruko Ishikawa
発行日 2023-06-07 15:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク