Synthetic dataset of ID and Travel Document

要約

本論文では、SIDTDと呼ばれるIDおよび旅行文書の新しい合成データセットを紹介する。SIDTDデータセットは、偽造ID文書検出システムの訓練と評価に役立てるために作成された。ID文書には個人情報が含まれており、本物の文書の公開データセットは公開できないため、このようなデータセットは必要不可欠となっている。さらに、偽造文書は正規の文書に比べて数が少なく、その生成方法も詐欺師によって異なるため、クラス内変動性が高い。本稿では、このデータセットで最先端のモデルを訓練し、より大規模だが非公開のデータセットで達成された性能と比較する。このデータセットの作成は、文書画像解析コミュニティがID文書検証のタスクを進展させるのに役立つだろう。

要約(オリジナル)

This paper presents a new synthetic dataset of ID and travel documents, called SIDTD. The SIDTD dataset is created to help training and evaluating forged ID documents detection systems. Such a dataset has become a necessity as ID documents contain personal information and a public dataset of real documents can not be released. Moreover, forged documents are scarce, compared to legit ones, and the way they are generated varies from one fraudster to another resulting in a class of high intra-variability. In this paper we trained state-of-the-art models on this dataset and we compare them to the performance achieved in larger, but private, datasets. The creation of this dataset will help to document image analysis community to progress in the task of ID document verification.

arxiv情報

著者 Carlos Boned,Maxime Talarmain,Nabil Ghanmi,Guillaume Chiron,Sanket Biswas,Ahmad Montaser Awal,Oriol Ramos Terrades
発行日 2024-01-03 18:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク