Improving Automatic Text Recognition with Language Models in the PyLaia Open-Source Library

要約

PyLaia は、自動テキスト認識 (ATR) 用の最も人気のあるオープンソース ソフトウェアの 1 つであり、速度と精度の点で強力なパフォーマンスを提供します。
この論文では、信頼性の高い信頼スコアの組み込みとデコード中の統計的言語モデリングの統合に焦点を当て、PyLaia ライブラリに対する最近の貢献について概説します。
私たちの実装は、PyLaia とさまざまなレベルの n-gram 言語モデルを組み合わせる簡単な方法を提供します。
この研究のハイライトの 1 つは、言語モデルが完全に自動調整されていることです。専門知識がなくても、追加データを必要とせずに、言語モデルを簡単に構築して使用できます。
私たちの貢献の重要性を実証するために、言語モデリングの有無にかかわらず、12 のデータセットに対する PyLaia のパフォーマンスを評価しました。
その結果、小規模な言語モデルを使用したデコードにより、単語エラー率が平均 13%、文字エラー率が 12% 改善されることがわかりました。
さらに、信頼スコアの分析を実施し、キャリブレーション技術の重要性を強調します。
私たちの実装は、公式 PyLaia リポジトリ (https://gitlab.teklia.com/atr/pylaia) で公開されており、12 のオープンソース モデルが Hugging Face でリリースされています。

要約(オリジナル)

PyLaia is one of the most popular open-source software for Automatic Text Recognition (ATR), delivering strong performance in terms of speed and accuracy. In this paper, we outline our recent contributions to the PyLaia library, focusing on the incorporation of reliable confidence scores and the integration of statistical language modeling during decoding. Our implementation provides an easy way to combine PyLaia with n-grams language models at different levels. One of the highlights of this work is that language models are completely auto-tuned: they can be built and used easily without any expert knowledge, and without requiring any additional data. To demonstrate the significance of our contribution, we evaluate PyLaia’s performance on twelve datasets, both with and without language modelling. The results show that decoding with small language models improves the Word Error Rate by 13% and the Character Error Rate by 12% in average. Additionally, we conduct an analysis of confidence scores and highlight the importance of calibration techniques. Our implementation is publicly available in the official PyLaia repository at https://gitlab.teklia.com/atr/pylaia, and twelve open-source models are released on Hugging Face.

arxiv情報

著者 Solène Tarride,Yoann Schneider,Marie Generali-Lince,Mélodie Boillet,Bastien Abadie,Christopher Kermorvant
発行日 2024-04-29 14:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク