要約
本研究では、病理組織画像を用いた乳癌分類に対する新規かつ高精度なアプローチを紹介する。様々な画像データセットにおいて主要な畳み込みニューラルネットワーク(CNN)モデルを系統的に比較し、それらの最適なハイパーパラメータを特定し、分類効果に基づいてランク付けを行う。各モデルの分類精度を最大化するために、データ増強の効果、代替の完全連結層、モデルのトレーニングハイパーパラメータ設定、モデルを再トレーニングする利点と事前にトレーニングされた重みを使用する利点を探索する。我々の方法論には、生成されたデータセットをシリアライズすることで、トレーニング実行中の一貫したデータ条件を確保し、トレーニング時間を大幅に短縮するなどの独自のコンセプトが含まれている。自動化された結果のキュレーションと組み合わせることで、2,000を超えるトレーニングの順列の探索が可能となった。この結果は、単体のCNNモデルで卓越した分類精度を達成するために必要な設定を確立し、モデルの有効性によってランク付けしたものである。これらの結果に基づき、3つの高性能な単体CNNモデルを多様な分類器とともに積み重ねるアンサンブル・アーキテクチャを提案し、その結果、分類精度が向上する。最良の結果を得るために非常に多くのモデルの並べ替えを系統的に実行する能力により、BreakHis x40とBreakHis x200で99.75%、Bachデータセットを訓練、検証、テストデータセットに分割した場合で95.18%など、非常に高品質な結果が得られる。Bachオンライン・ブラインド・チャレンジでは、このアプローチで89%の結果を得た。この研究は乳がんの病理組織画像データセットに基づいているが、この手法は他の医療画像データセットにも同様に適用可能である。
要約(オリジナル)
This study introduces a novel and accurate approach to breast cancer classification using histopathology images. It systematically compares leading Convolutional Neural Network (CNN) models across varying image datasets, identifies their optimal hyperparameters, and ranks them based on classification efficacy. To maximize classification accuracy for each model we explore, the effects of data augmentation, alternative fully-connected layers, model training hyperparameter settings, and, the advantages of retraining models versus using pre-trained weights. Our methodology includes several original concepts, including serializing generated datasets to ensure consistent data conditions across training runs and significantly reducing training duration. Combined with automated curation of results, this enabled the exploration of over 2,000 training permutations — such a comprehensive comparison is as yet unprecedented. Our findings establish the settings required to achieve exceptional classification accuracy for standalone CNN models and rank them by model efficacy. Based on these results, we propose ensemble architectures that stack three high-performing standalone CNN models together with diverse classifiers, resulting in improved classification accuracy. The ability to systematically run so many model permutations to get the best outcomes gives rise to very high quality results, including 99.75% for BreakHis x40 and BreakHis x200 and 95.18% for the Bach datasets when split into train, validation and test datasets. The Bach Online blind challenge, yielded 89% using this approach. Whilst this study is based on breast cancer histopathology image datasets, the methodology is equally applicable to other medical image datasets.
arxiv情報
著者 | Gary Murphy,Raghubir Singh |
発行日 | 2024-10-04 11:31:43+00:00 |
arxivサイト | arxiv_id(pdf) |