Towards Reliable Dermatology Evaluation Benchmarks

要約

デジタル皮膚科学のベンチマーク データセットには、モデルのパフォーマンス推定の信頼性を低下させる不正確さが知らず知らずのうちに含まれています。
以前のキュレーションを逃れた問題を特定するために、リソース効率の高いデータ クリーニング プロトコルを提案します。
このプロトコルは既存のアルゴリズムによるクリーニング戦略を活用し、直感的な停止基準によって終了する確認プロセスが続きます。
複数の皮膚科医による確認に基づいて、無関係なサンプルと重複に近いサンプルを削除し、International Skin Imaging Collaboration が推進するモデル評価用の 6 つの皮膚科画像データセットにおけるラベル エラーの割合を推定します。
この論文とともに、モデルの評価に使用する必要がある各データセットの改訂されたファイル リストを公開します。
私たちの取り組みは、デジタル皮膚科学におけるより信頼できるパフォーマンス評価への道を切り開きます。

要約(オリジナル)

Benchmark datasets for digital dermatology unwittingly contain inaccuracies that reduce trust in model performance estimates. We propose a resource-efficient data cleaning protocol to identify issues that escaped previous curation. The protocol leverages an existing algorithmic cleaning strategy and is followed by a confirmation process terminated by an intuitive stopping criterion. Based on confirmation by multiple dermatologists, we remove irrelevant samples and near duplicates and estimate the percentage of label errors in six dermatology image datasets for model evaluation promoted by the International Skin Imaging Collaboration. Along with this paper, we publish revised file lists for each dataset which should be used for model evaluation. Our work paves the way for more trustworthy performance assessment in digital dermatology.

arxiv情報

著者 Fabian Gröger,Simone Lionetti,Philippe Gottfrois,Alvaro Gonzalez-Jimenez,Matthew Groh,Roxana Daneshjou,Labelling Consortium,Alexander A. Navarini,Marc Pouly
発行日 2023-09-13 13:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク