光学式文字認識 (OCR) は、スキャンされた文書を機械可読テキストに変換するため、ノルウェー国立図書館 (NLN) のデジタル化プロセスにとって非常に重要です。
しかし、NLN のコレクションにある S\’ami 文書の場合、OCR の精度は不十分です。
OCR の品質が下流のプロセスに影響を与えることを考えると、これらのリソースにアクセスできるようにするには、S\’ami 言語で書かれたテキストの OCR を評価し、改善することが必要です。
このニーズに対処するために、この研究では、NLN のコレクションから S\’ami テキストを転写するために、Transkribus、Tesseract、TrOCR という 3 つの確立された OCR アプローチを微調整して評価しています。
私たちの結果は、このタスクでは Transkribus と TrOCR が Tesseract よりも優れたパフォーマンスを発揮する一方、Tesseract はドメイン外のデータセットで優れたパフォーマンスを達成することを示しています。
さらに、事前トレーニングされたモデルを微調整し、機械による注釈と合成テキスト画像で手動による注釈を補うことにより、手動で注釈が付けられたデータが適度な量であっても、東南アジア言語に対して正確な OCR を生成できることを示します。
Optical Character Recognition (OCR) is crucial to the National Library of Norway’s (NLN) digitisation process as it converts scanned documents into machine-readable text. However, for the S\’ami documents in NLN’s collection, the OCR accuracy is insufficient. Given that OCR quality affects downstream processes, evaluating and improving OCR for text written in S\’ami languages is necessary to make these resources accessible. To address this need, this work fine-tunes and evaluates three established OCR approaches, Transkribus, Tesseract and TrOCR, for transcribing S\’ami texts from NLN’s collection. Our results show that Transkribus and TrOCR outperform Tesseract on this task, while Tesseract achieves superior performance on an out-of-domain dataset. Furthermore, we show that fine-tuning pre-trained models and supplementing manual annotations with machine annotations and synthetic text images can yield accurate OCR for S\’ami languages, even with a moderate amount of manually annotated data.
著者 | Tita Enstad,Trond Trosterud,Marie Iversdatter Røsok,Yngvil Beyer,Marie Roald |
発行日 | 2025-01-13 13:07:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google