The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses

要約

本稿では、1836年から1936年までのフランスの国勢調査リストから情報を抽出するための完全な処理ワークフローを紹介する。これらの一覧表には、フランスに住む個人とその世帯に関する情報が含まれている。我々は、自動手書き表認識を用いて、これらの表に含まれるすべての情報を抽出することを目指している。私たちの研究が行われているSocfaceプロジェクトが終了すると、抽出された情報は各県の公文書館に再配布され、指名名簿は一般に自由に利用できるようになり、誰でも何億もの記録を閲覧できるようになる。抽出されたデータは、人口統計学者が経時的な社会変化を分析するために利用され、フランスの経済・社会構造に関する我々の理解を大幅に向上させるだろう。このプロジェクトでは、フランス各州の公文書館からの大規模なデータ収集、文書の共同アノテーション、手書き表テキストと構造認識モデルの学習、数百万画像の大量処理という、完全な処理ワークフローを開発した。数百万ページを簡単に収集・処理するために開発したツールを紹介する。また、ページ全体の画像を使って個人の情報を認識し、分類し、自動的に世帯にグループ化する単一の表認識モデルで、このような多種多様な表を処理できることを示す。このプロセス全体は、450,000以上の画像からなる、ある部門のアーカイブの文書を処理するのに成功した。

要約(オリジナル)

This paper presents a complete processing workflow for extracting information from French census lists from 1836 to 1936. These lists contain information about individuals living in France and their households. We aim at extracting all the information contained in these tables using automatic handwritten table recognition. At the end of the Socface project, in which our work is taking place, the extracted information will be redistributed to the departmental archives, and the nominative lists will be freely available to the public, allowing anyone to browse hundreds of millions of records. The extracted data will be used by demographers to analyze social change over time, significantly improving our understanding of French economic and social structures. For this project, we developed a complete processing workflow: large-scale data collection from French departmental archives, collaborative annotation of documents, training of handwritten table text and structure recognition models, and mass processing of millions of images. We present the tools we have developed to easily collect and process millions of pages. We also show that it is possible to process such a wide variety of tables with a single table recognition model that uses the image of the entire page to recognize information about individuals, categorize them and automatically group them into households. The entire process has been successfully used to process the documents of a departmental archive, representing more than 450,000 images.

arxiv情報

著者 Mélodie Boillet,Solène Tarride,Manon Blanco,Valentin Rigal,Yoann Schneider,Bastien Abadie,Lionel Kesztenbaum,Christopher Kermorvant
発行日 2024-06-03 07:19:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク