CENSUS-HWR: a large training dataset for offline handwriting recognition

要約

自動手書き認識の進歩は、大規模なトレーニング データセットの不足によって妨げられています。
ほぼすべての研究では一連の小さなデータセットが使用されており、これによりモデルが過剰適合することがよくあります。
我々は、1,812,014 個のグレースケール画像内の完全な英語の手書き単語で構成される新しいデータセットである CENSUS-HWR を紹介します。
このコレクションには、英語の 10,711 語の語彙からなる合計 1,865,134 個の手書きテキストが含まれています。
このデータセットは、深層学習アルゴリズムのベンチマークとして手書きモデルを提供することを目的としています。
この巨大な英語手書き認識データセットは、毎年約 70,000 人の調査員によって行われた 1930 年と 1940 年の米国国勢調査から抽出されたものです。
データセットとその重みを含むトレーニング済みモデルは、https://censustree.org/data.html から無料でダウンロードできます。

要約(オリジナル)

Progress in Automated Handwriting Recognition has been hampered by the lack of large training datasets. Nearly all research uses a set of small datasets that often cause models to overfit. We present CENSUS-HWR, a new dataset consisting of full English handwritten words in 1,812,014 gray scale images. A total of 1,865,134 handwritten texts from a vocabulary of 10,711 words in the English language are present in this collection. This dataset is intended to serve handwriting models as a benchmark for deep learning algorithms. This huge English handwriting recognition dataset has been extracted from the US 1930 and 1940 censuses taken by approximately 70,000 enumerators each year. The dataset and the trained model with their weights are freely available to download at https://censustree.org/data.html.

arxiv情報

著者 Chetan Joshi,Lawry Sorenson,Ammon Wolfert,Dr. Mark Clement,Dr. Joseph Price,Dr. Kasey Buckles
発行日 2023-05-25 17:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク