Do We Train on Test Data? The Impact of Near-Duplicates on License Plate Recognition

要約

この研究では、ナンバープレート認識(LPR)研究で広く採用されているデータセットのトレーニングセットとテストセットに、重複に近い画像が多数存在することに注目する。これらの重複は、異なるが同じナンバープレートを示す画像を指す。この分野で最もよく使われている2つのデータセットを用いて行った我々の実験では、6つのよく知られたモデルを公正な分割、つまり訓練セットとテストセットに重複がない状態で訓練とテストを行った場合、認識率が大幅に低下することが示された。さらに、あるデータセットでは、重複のない分割で学習・テストすると、モデルの順位が大幅に変化した。これらの結果は、このような重複がLPRのための深層学習ベースのモデルの評価と開発に大きな偏りを与えていることを示唆している。我々が発見した重複に近いデータのリストと公正な分割の提案は、https://raysonlaroca.github.io/supp/lpr-train-on-test/ で公開されており、さらなる研究が可能です。

要約(オリジナル)

This work draws attention to the large fraction of near-duplicates in the training and test sets of datasets widely adopted in License Plate Recognition (LPR) research. These duplicates refer to images that, although different, show the same license plate. Our experiments, conducted on the two most popular datasets in the field, show a substantial decrease in recognition rate when six well-known models are trained and tested under fair splits, that is, in the absence of duplicates in the training and test sets. Moreover, in one of the datasets, the ranking of models changed considerably when they were trained and tested under duplicate-free splits. These findings suggest that such duplicates have significantly biased the evaluation and development of deep learning-based models for LPR. The list of near-duplicates we have found and proposals for fair splits are publicly available for further research at https://raysonlaroca.github.io/supp/lpr-train-on-test/

arxiv情報

著者 Rayson Laroca,Valter Estevam,Alceu S. Britto Jr.,Rodrigo Minetto,David Menotti
発行日 2023-08-04 13:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク