要約
歴史的な印刷メディアアーカイブのデジタル化は、現代の記録へのアクセスを増やすために非常に重要です。
ただし、物理的な記録をデジタル テキストに変換するために使用される光学式文字認識 (OCR) のプロセスは、特に新聞や定期刊行物の場合、レイアウトが複雑なため、エラーが発生しやすくなります。
このペーパーでは、トランスフォーマーベースの言語モデル (LM) の埋め込み機能とコンテキスト適応機能を利用して OCR 品質を向上させる、コンテキスト活用 OCR 修正 (CLOCR-C) を紹介します。
この研究は、LM が OCR 後の修正を実行できるかどうか、下流の NLP タスクを改善できるかどうか、修正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することを目的としています。
実験は、19th Century Serials Edition (NCSE) と Overproof コレクションの 2 つのデータセットの 3 つのデータセットで 7 つの LM を使用して実施されました。
結果は、一部の LM がエラー率を大幅に削減できることを示しており、最高パフォーマンスのモデルでは NCSE データセットの文字エラー率の 60% 以上の削減を達成しています。
OCR の改善は、固有表現のコサイン類似性の向上により、固有表現認識などの下流タスクにも拡張されています。
さらに、この研究では、プロンプトに社会文化的コンテキストを提供するとパフォーマンスが向上する一方、誤解を招くプロンプトはパフォーマンスが低下することが示されています。
調査結果に加えて、この研究では、この分野のさらなる研究を支援するために、NCSE から転写された 91 件の論文のデータセット (合計 40,000 ワードを含む) を公開しました。
この調査結果は、CLOCR-C が、LM に埋め込まれた社会文化情報や修正が必要なテキストを活用することで、既存のデジタル アーカイブの品質を向上させるための有望なアプローチであることを示唆しています。
要約(オリジナル)
The digitisation of historical print media archives is crucial for increasing accessibility to contemporary records. However, the process of Optical Character Recognition (OCR) used to convert physical records to digital text is prone to errors, particularly in the case of newspapers and periodicals due to their complex layouts. This paper introduces Context Leveraging OCR Correction (CLOCR-C), which utilises the infilling and context-adaptive abilities of transformer-based language models (LMs) to improve OCR quality. The study aims to determine if LMs can perform post-OCR correction, improve downstream NLP tasks, and the value of providing the socio-cultural context as part of the correction process. Experiments were conducted using seven LMs on three datasets: the 19th Century Serials Edition (NCSE) and two datasets from the Overproof collection. The results demonstrate that some LMs can significantly reduce error rates, with the top-performing model achieving over a 60% reduction in character error rate on the NCSE dataset. The OCR improvements extend to downstream tasks, such as Named Entity Recognition, with increased Cosine Named Entity Similarity. Furthermore, the study shows that providing socio-cultural context in the prompts improves performance, while misleading prompts lower performance. In addition to the findings, this study releases a dataset of 91 transcribed articles from the NCSE, containing a total of 40 thousand words, to support further research in this area. The findings suggest that CLOCR-C is a promising approach for enhancing the quality of existing digital archives by leveraging the socio-cultural information embedded in the LMs and the text requiring correction.
arxiv情報
著者 | Jonathan Bourne |
発行日 | 2024-08-30 17:26:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google