OCR Language Models with Custom Vocabularies

要約

言語モデルは、正確な光学式文字認識 (OCR) 結果を生成するための光学モデルの補助として役立ちます。
この文脈における言語モデルの力を制限する要因の 1 つは、一般的な言語モデルによって暗示される言語統計とは大きく異なる言語統計を持つ多くの特殊なドメインが存在することです。小切手、医療処方箋、およびその他の多くの特殊な文書クラスを思い浮かべてください。
この論文では、実行時にドメイン固有の単語ベースの言語モデルを効率的に生成し、OCR システムの一般的な言語モデルに付加するためのアルゴリズムを紹介します。
このモデルを最大限に活用するために、この論文では、将来の語彙の完成の可能性に基づいて仮説を効果的に競合状態に保つことができる修正された CTC ビーム検索デコーダも導入しています。
その結果、特殊なドメインの内容を認識する際の単語エラー率が大幅に減少します。

要約(オリジナル)

Language models are useful adjuncts to optical models for producing accurate optical character recognition (OCR) results. One factor which limits the power of language models in this context is the existence of many specialized domains with language statistics very different from those implied by a general language model – think of checks, medical prescriptions, and many other specialized document classes. This paper introduces an algorithm for efficiently generating and attaching a domain specific word based language model at run time to a general language model in an OCR system. In order to best use this model the paper also introduces a modified CTC beam search decoder which effectively allows hypotheses to remain in contention based on possible future completion of vocabulary words. The result is a substantial reduction in word error rate in recognizing material from specialized domains.

arxiv情報

著者 Peter Garst,Reeve Ingle,Yasuhisa Fujii
発行日 2023-08-18 16:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク