Quantifying the Effect of Image Similarity on Diabetic Foot Ulcer Classification

要約

【タイトル】
糖尿病性足潰瘍分類における画像類似性の影響の定量化

【要約】
– 研究目的:糖尿病性足潰瘍の公開データセットにおいて、画像類似性が深層学習分類ネットワークのトレーニングに及ぼす影響を調査すること。
– 手法:
– ディープラーニングアルゴリズムのトレーニングに使用されるデータセット中のバイナリ同一の重複画像の存在は、ネットワーク性能を低下させることが知られている。
– しかしながら、非同一の類似画像の影響は未だ研究されておらず、糖尿病性足潰瘍の研究でも未解明であった。
– 本研究では、オープンソースのファジー・アルゴリズムを使用してDFUC2021トレーニングデータセット内の類似画像を同定。
– それぞれの類似度の閾値に基づき、新しいトレーニングセットを作成し、複数のディープラーニングマルチクラス分類器をトレーニングする。
– 最良の性能を発揮するモデルでDFUC2021テストセットのパフォーマンスを評価する。
– 結果:
– 80\%の類似度の閾値に対する画像を除いたトレーニングセットでInceptionResNetV2ネットワークでトレーニングしたモデルが最も良い性能を発揮。
– F1スコア、精度、再現率がそれぞれ0.023、0.029、0.013改善された。
– 結論:高度に類似した画像は、DFUC2021データセットにおいて性能低下のバイアスが存在する原因となることが示唆され、トレーニングセットから80\%類似した画像を除くことが分類のパフォーマンス向上に効果的であることがわかった。

要約(オリジナル)

This research conducts an investigation on the effect of visually similar images within a publicly available diabetic foot ulcer dataset when training deep learning classification networks. The presence of binary-identical duplicate images in datasets used to train deep learning algorithms is a well known issue that can introduce unwanted bias which can degrade network performance. However, the effect of visually similar non-identical images is an under-researched topic, and has so far not been investigated in any diabetic foot ulcer studies. We use an open-source fuzzy algorithm to identify groups of increasingly similar images in the Diabetic Foot Ulcers Challenge 2021 (DFUC2021) training dataset. Based on each similarity threshold, we create new training sets that we use to train a range of deep learning multi-class classifiers. We then evaluate the performance of the best performing model on the DFUC2021 test set. Our findings show that the model trained on the training set with the 80\% similarity threshold images removed achieved the best performance using the InceptionResNetV2 network. This model showed improvements in F1-score, precision, and recall of 0.023, 0.029, and 0.013, respectively. These results indicate that highly similar images can contribute towards the presence of performance degrading bias within the Diabetic Foot Ulcers Challenge 2021 dataset, and that the removal of images that are 80\% similar from the training set can help to boost classification performance.

arxiv情報

著者 Imran Chowdhury Dipto,Bill Cassidy,Connah Kendrick,Neil D. Reeves,Joseph M. Pappachan,Vishnu Chandrabalan,Moi Hoon Yap
発行日 2023-04-25 16:54:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク