Benchmarking common uncertainty estimation methods with histopathological images under domain shift and label noise

要約

過去数年間、ディープラーニングは病理組織学的なアプリケーションの領域で使用されることが増えてきた。しかし、これらのアプローチは大きな可能性を示しているが、リスクの高い環境では、深層学習モデルは自身の不確実性を判断でき、誤分類の可能性が大きい場合に入力を拒否できることが必要である。本研究では、乳がんデータセット「Camelyon17」を用いて、ドメインシフト下でのWhole-Slide-Imagesの分類に最もよく用いられる不確実性と頑健性の手法の厳密な評価を実施する。病理組織学的データは、強いドメインシフトとラベルノイズの影響を受けることが知られているが、我々の知る限り、これはこれらの側面における不確実性推定のための最も一般的な方法を比較した最初の仕事である。我々の実験では、確率変分推論、モンテカルロドロップアウト、ディープアンサンブル、テストタイムデータオーグメンテーション、およびそれらの組み合わせを比較した。その結果、アンサンブルは一般に高い精度とより良いキャリブレーションをもたらし、テスト時間データ補強は適切な補強のセットを選択する際の有望な代替手段になり得ることが分かった。全ての手法において、最も不確実なタイルを排除することで、分布内データ及び分布外データの両方において、分類精度の大幅な向上をもたらす。さらに、ラベルノイズの条件を変化させて、これらの手法を比較する実験を行った。Camelyon17データセットの境界領域がラベルノイズにさらされていることを確認し、様々なノイズレベルに対する本手法の頑健性を評価する。最後に、病理組織データの不確実性推定に関する更なる研究を促進するために、我々のコードフレームワークを公開する。

要約(オリジナル)

In the past years, deep learning has seen an increase of usage in the domain of histopathological applications. However, while these approaches have shown great potential, in high-risk environments deep learning models need to be able to judge their own uncertainty and be able to reject inputs when there is a significant chance of misclassification. In this work, we conduct a rigorous evaluation of the most commonly used uncertainty and robustness methods for the classification of Whole-Slide-Images under domain shift using the H\&E stained Camelyon17 breast cancer dataset. Although it is known that histopathological data can be subject to strong domain shift and label noise, to our knowledge this is the first work that compares the most common methods for uncertainty estimation under these aspects. In our experiments, we compare Stochastic Variational Inference, Monte-Carlo Dropout, Deep Ensembles, Test-Time Data Augmentation as well as combinations thereof. We observe that ensembles of methods generally lead to higher accuracies and better calibration and that Test-Time Data Augmentation can be a promising alternative when choosing an appropriate set of augmentations. Across methods, a rejection of the most uncertain tiles leads to a significant increase in classification accuracy on both in-distribution as well as out-of-distribution data. Furthermore, we conduct experiments comparing these methods under varying conditions of label noise. We observe that the border regions of the Camelyon17 dataset are subject to label noise and evaluate the robustness of the included methods against different noise levels. Lastly, we publish our code framework to facilitate further research on uncertainty estimation on histopathological data.

arxiv情報

著者 Hendrik A. Mehrtens,Alexander Kurz,Tabea-Clara Bucher,Titus J. Brinker
発行日 2023-01-03 11:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク