要約
プロジェクト REE-HDSC について説明し、手書きテキスト認識 (HTR) ソフトウェアによって生成されたテキストから自動的に抽出される固有表現の品質を向上させる取り組みの概要を説明します。
6 段階の処理パイプラインを説明し、キュラソー島の住民登録簿からの 19 世紀と 20 世紀の死亡証明書を処理してテストします。
パイプラインは日付を高精度で抽出しますが、人名の抽出精度が低いことがわかります。
次に、名前を使用して HTR モデルを再トレーニングし、後処理し、間違った名前を特定して削除することによって、名前の精度の抽出をどのように改善できるかを示します。
要約(オリジナル)
We describe the project REE-HDSC and outline our efforts to improve the quality of named entities extracted automatically from texts generated by hand-written text recognition (HTR) software. We describe a six-step processing pipeline and test it by processing 19th and 20th century death certificates from the civil registry of Curacao. We find that the pipeline extracts dates with high precision but that the precision of person name extraction is low. Next we show how name precision extraction can be improved by retraining HTR models with names, post-processing and by identifying and removing incorrect names.
arxiv情報
著者 | Erik Tjong Kim Sang |
発行日 | 2024-04-05 09:32:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google