要約
皮膚科学的画像分類におけるディープラーニングアプローチは有望な結果を示しているが、この分野は適切な評価の妨げとなる方法論上の重大な課題に直面している。第一に、皮膚病分類研究における現在の方法論的実践を系統的に分析し、データ準備、増強戦略、パフォーマンス報告における実質的な矛盾を明らかにすること、第二に、3つのベンチマークデータセット(HAM10000、DermNet、ISIC Atlas)におけるDINOv2-Largeビジョン変換器を用いた実験を通じて実証された包括的なトレーニングと評価のフレームワークである。分析により、分割前のデータ補強や検証ベースのレポートなど、過大評価される可能性のあるメトリクスを含むパターンが特定され、同時に統一された手法基準の欠如が強調された。実験結果は、DINOv2が皮膚疾患分類において0.85(HAM10000)、0.71(DermNet)、0.84(ISIC Atlas)のマクロ平均F1スコアを達成し、その性能を実証している。アテンションマップ解析は、モデルの意思決定における重要なパターンを明らかにし、典型的な症例では洗練された特徴認識を示したが、非典型的な症例や合成画像では重大な脆弱性を示した。我々の知見は、標準化された評価プロトコルと、臨床現場における慎重な実施戦略の必要性を強調している。我々は、モデルの開発、評価、および臨床展開のための包括的な方法論的推奨事項を提案する。再現性を促進するために、GitHubを通じて実装コードを提供する。この研究は、皮膚科学的画像分類における厳密な評価基準の基礎を確立し、臨床皮膚科学における責任あるAI実装のための洞察を提供する。
要約(オリジナル)
Deep Learning approaches in dermatological image classification have shown promising results, yet the field faces significant methodological challenges that impede proper evaluation. This paper presents a dual contribution: first, a systematic analysis of current methodological practices in skin disease classification research, revealing substantial inconsistencies in data preparation, augmentation strategies, and performance reporting; second, a comprehensive training and evaluation framework demonstrated through experiments with the DINOv2-Large vision transformer across three benchmark datasets (HAM10000, DermNet, ISIC Atlas). The analysis identifies concerning patterns, including pre-split data augmentation and validation-based reporting, potentially leading to overestimated metrics, while highlighting the lack of unified methodology standards. The experimental results demonstrate DINOv2’s performance in skin disease classification, achieving macro-averaged F1-scores of 0.85 (HAM10000), 0.71 (DermNet), and 0.84 (ISIC Atlas). Attention map analysis reveals critical patterns in the model’s decision-making, showing sophisticated feature recognition in typical presentations but significant vulnerabilities with atypical cases and composite images. Our findings highlight the need for standardized evaluation protocols and careful implementation strategies in clinical settings. We propose comprehensive methodological recommendations for model development, evaluation, and clinical deployment, emphasizing rigorous data preparation, systematic error analysis, and specialized protocols for different image types. To promote reproducibility, we provide our implementation code through GitHub. This work establishes a foundation for rigorous evaluation standards in dermatological image classification and provides insights for responsible AI implementation in clinical dermatology.
arxiv情報
著者 | Łukasz Miętkiewicz,Leon Ciechanowski,Dariusz Jemielniak |
発行日 | 2025-02-04 17:15:36+00:00 |
arxivサイト | arxiv_id(pdf) |