The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses

要約

このペーパーでは、1836 年から 1936 年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを示します。これらのリストには、フランスに住む個人とその世帯に関する情報が含まれています。
私たちは、自動手書き表認識を使用して、これらの表に含まれるすべての情報を抽出することを目指しています。
私たちの活動が行われている Socface プロジェクトの終了時には、抽出された情報は部門のアーカイブに再配布され、候補リストは一般に無料で公開され、誰でも数億件の記録を閲覧できるようになります。
抽出されたデータは、人口統計学者が時間の経過に伴う社会変化を分析するために使用され、フランスの経済および社会構造に対する理解が大幅に向上します。
このプロジェクトでは、フランスの部門アーカイブからの大規模なデータ収集、文書の共同注釈付け、手書きの表テキストと構造認識モデルのトレーニング、数百万枚の画像の大量処理など、完全な処理ワークフローを開発しました。
数百万のページを簡単に収集して処理するために開発したツールを紹介します。
また、ページ全体の画像を使用して個人に関する情報を認識し、分類し、自動的に世帯にグループ化する単一の表認識モデルで、このような多種多様な表を処理できることも示します。
プロセス全体は、450,000 枚を超える画像を表す部門アーカイブの文書を処理するために使用され、成功しました。

要約(オリジナル)

This paper presents a complete processing workflow for extracting information from French census lists from 1836 to 1936. These lists contain information about individuals living in France and their households. We aim at extracting all the information contained in these tables using automatic handwritten table recognition. At the end of the Socface project, in which our work is taking place, the extracted information will be redistributed to the departmental archives, and the nominative lists will be freely available to the public, allowing anyone to browse hundreds of millions of records. The extracted data will be used by demographers to analyze social change over time, significantly improving our understanding of French economic and social structures. For this project, we developed a complete processing workflow: large-scale data collection from French departmental archives, collaborative annotation of documents, training of handwritten table text and structure recognition models, and mass processing of millions of images. We present the tools we have developed to easily collect and process millions of pages. We also show that it is possible to process such a wide variety of tables with a single table recognition model that uses the image of the entire page to recognize information about individuals, categorize them and automatically group them into households. The entire process has been successfully used to process the documents of a departmental archive, representing more than 450,000 images.

arxiv情報

著者 Mélodie Boillet,Solène Tarride,Yoann Schneider,Bastien Abadie,Lionel Kesztenbaum,Christopher Kermorvant
発行日 2024-04-29 13:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク