Efficient Deduplication and Leakage Detection in Large Scale Image Datasets with a focus on the CrowdAI Mapping Challenge Dataset

要約

タイトル:大規模画像データセットにおける重複削除と漏洩検出の高効率化:CrowdAI Mapping Challenge Datasetを中心に

要約:

– 遠隔センシングイメージから建物の足跡を抽出するために深層ニューラルネットワークが広く使用されている
– しかし、高品質な注釈が付いた高解像度の遠隔センシング画像の大規模データベースの利用が必要
– CrowdAI Mapping Challenge Datasetは、深層ニューラルネットワークのトレーニングに広く使用されている
– これには、約280,000のトレーニング画像と約60,000のテスト画像が含まれ、すべての画像に多角形の建物注釈が付いている
– しかし、低品質で誤った注釈、画像サンプルの大規模な複製、トレーニングとテストの分割間のデータ漏洩などの問題がある
– したがって、使用前にデータ検証パイプラインを採用する必要がある
– そこで、知覚ハッシング技術を使用したドロップインパイプラインを提案することで、データセットの高効率な重複削除とトレーニングとテストの分割間のデータ漏洩インスタンスの識別が可能となる
– 実験では、約250,000(約90%)のトレーニング分割画像が同一であることを示し、トレーニング分割にも現れる56,000件の画像が検証分割にも現れ、データ漏洩が93%あることを示した
– CrowdAI Mapping Challenge datasetの分析と重複削除に使用されたソースコードは、https://github.com/yeshwanth95/CrowdAI_Hash_and_searchで公開されている。

要約(オリジナル)

Recent advancements in deep learning and computer vision have led to widespread use of deep neural networks to extract building footprints from remote-sensing imagery. The success of such methods relies on the availability of large databases of high-resolution remote sensing images with high-quality annotations. The CrowdAI Mapping Challenge Dataset is one of these datasets that has been used extensively in recent years to train deep neural networks. This dataset consists of $ \sim\ $280k training images and $ \sim\ $60k testing images, with polygonal building annotations for all images. However, issues such as low-quality and incorrect annotations, extensive duplication of image samples, and data leakage significantly reduce the utility of deep neural networks trained on the dataset. Therefore, it is an imperative pre-condition to adopt a data validation pipeline that evaluates the quality of the dataset prior to its use. To this end, we propose a drop-in pipeline that employs perceptual hashing techniques for efficient de-duplication of the dataset and identification of instances of data leakage between training and testing splits. In our experiments, we demonstrate that nearly 250k($ \sim\ $90%) images in the training split were identical. Moreover, our analysis on the validation split demonstrates that roughly 56k of the 60k images also appear in the training split, resulting in a data leakage of 93%. The source code used for the analysis and de-duplication of the CrowdAI Mapping Challenge dataset is publicly available at https://github.com/yeshwanth95/CrowdAI_Hash_and_search .

arxiv情報

著者 Yeshwanth Kumar Adimoolam,Bodhiswatta Chatterjee,Charalambos Poullis,Melinos Averkiou
発行日 2023-04-05 08:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク