A Survey of Historical Document Image Datasets

要約

この論文では、手書きの写本や初期の版画などの歴史的文書に焦点を当て、文書画像分析のための画像データセットの体系的な文献レビューを提示します。
履歴文書の分析に適したデータセットを見つけることは、さまざまな機械学習アルゴリズムを使用した研究を促進するための重要な前提条件です。
ただし、実際のデータは非常に多種多様であり (スクリプト、タスク、日付、サポート システム、劣化量など)、データとラベルの表現の形式が異なり、評価プロセスとベンチマークも異なるため、適切なデータセットを見つける必要があります。
難しい作業です。
この作業はこのギャップを埋め、既存のデータセットに関するメタスタディを提示します。
体系的な選択プロセス (PRISMA ガイドラインによる) の後、出版年、記事に実装された方法の数、選択したアルゴリズムの信頼性、データセットのサイズ、およびジャーナルなどのさまざまな要因に基づいて選択された 65 の研究を選択します。
出口。
ドキュメントの分類、レイアウト構造、コンテンツ分析の 3 つの定義済みタスクのいずれかに割り当てて、各調査を要約します。
すべてのデータセットの統計、ドキュメントの種類、言語、タスク、入力の視覚的側面、およびグラウンド トゥルース情報を提示します。
さらに、これらの論文または最近のコンテストからのベンチマーク タスクと結果を提供します。
この分野におけるギャップと課題についてさらに議論します。
一般的な形式 (コンピューター ビジョン タスク用の COCO 形式など) への変換ツールを提供し、研究間で結果を比較できるように、1 つだけではなく一連の評価指標を常に提供することをお勧めします。

要約(オリジナル)

This paper presents a systematic literature review of image datasets for document image analysis, focusing on historical documents, such as handwritten manuscripts and early prints. Finding appropriate datasets for historical document analysis is a crucial prerequisite to facilitate research using different machine learning algorithms. However, because of the very large variety of the actual data (e.g., scripts, tasks, dates, support systems, and amount of deterioration), the different formats for data and label representation, and the different evaluation processes and benchmarks, finding appropriate datasets is a difficult task. This work fills this gap, presenting a meta-study on existing datasets. After a systematic selection process (according to PRISMA guidelines), we select 65 studies that are chosen based on different factors, such as the year of publication, number of methods implemented in the article, reliability of the chosen algorithms, dataset size, and journal outlet. We summarize each study by assigning it to one of three pre-defined tasks: document classification, layout structure, or content analysis. We present the statistics, document type, language, tasks, input visual aspects, and ground truth information for every dataset. In addition, we provide the benchmark tasks and results from these papers or recent competitions. We further discuss gaps and challenges in this domain. We advocate for providing conversion tools to common formats (e.g., COCO format for computer vision tasks) and always providing a set of evaluation metrics, instead of just one, to make results comparable across studies.

arxiv情報

著者 Konstantina Nikolaidou,Mathias Seuret,Hamam Mokayed,Marcus Liwicki
発行日 2022-10-31 10:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク