Advancing Post-OCR Correction: A Comparative Study of Synthetic Data

要約

このペーパーでは、データ量、拡張、および合成データ生成方法がモデルのパフォーマンスに及ぼす影響を評価する実験を実施することにより、OCR 後のドメインにおける合成データの適用を複数の面で検討します。
さらに、コンピューター ビジョンの特徴検出アルゴリズムを利用して、OCR 後の合成データを構築するためのグリフの類似性を計算する新しいアルゴリズムを導入します。
いくつかの低リソース言語を含むさまざまな言語で実施された実験を通じて、ByT5 のようなモデルが手動で注釈を付けられたデータを必要とせずに文字誤り率 (CER) を大幅に削減できることを実証し、私たちが提案する合成データ生成方法が従来のものよりも優れていることを示しています。
特に低リソース言語でのメソッド。

要約(オリジナル)

This paper explores the application of synthetic data in the post-OCR domain on multiple fronts by conducting experiments to assess the impact of data volume, augmentation, and synthetic data generation methods on model performance. Furthermore, we introduce a novel algorithm that leverages computer vision feature detection algorithms to calculate glyph similarity for constructing post-OCR synthetic data. Through experiments conducted across a variety of languages, including several low-resource ones, we demonstrate that models like ByT5 can significantly reduce Character Error Rates (CER) without the need for manually annotated data, and our proposed synthetic data generation method shows advantages over traditional methods, particularly in low-resource languages.

arxiv情報

著者 Shuhao Guan,Derek Greene
発行日 2024-08-13 07:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク