Histopathological Image Classification based on Self-Supervised Vision Transformer and Weak Labels

要約

全スライド画像 (WSI) 分析は、組織サンプルにおけるがんの診断を容易にする強力な方法です。
この診断を自動化すると、さまざまな問題が発生します。最も顕著なのは、膨大な画像解像度と限られた注釈が原因です。
WSI は通常、100Kx100K ピクセルの解像度を示します。
ピクセル レベルで WSI のがん領域に注釈を付けるには、非常に労力がかかり、高度な専門知識が必要です。
複数インスタンス学習 (MIL) により、高価なピクセル レベルの注釈の必要性が軽減されます。
MIL では、病理学者がスライドに癌組織が含まれているかどうかに関する情報を提供するスライド レベルのラベルで学習が実行されます。
ここでは、スライド レベルの注釈に基づいて癌領域を分類およびローカライズするための新しいアプローチである Self-ViT-MIL を提案し、ピクセル単位の注釈付きトレーニング データの必要性を排除します。
Self-ViT-MIL は、ラベルに依存することなく豊富な特徴表現を学習するために、自己教師あり設定で事前にトレーニングされています。
最近の Vision Transformer (ViT) アーキテクチャは、Self-ViT-MIL の特徴抽出器を構築します。
がん領域のローカライズには、世界的に注目されている MIL アグリゲーターが利用されます。
私たちの知る限りでは、Self-ViT-MIL は、MIL ベースの WSI 分析タスクに自己教師付き ViT を導入する最初のアプローチです。
一般的な Camelyon16 データセットに対するアプローチの有効性を紹介します。
Self-ViT-MIL は、精度と曲線下面積 (AUC) の点で、既存の最先端の MIL ベースのアプローチを上回っています。

要約(オリジナル)

Whole Slide Image (WSI) analysis is a powerful method to facilitate the diagnosis of cancer in tissue samples. Automating this diagnosis poses various issues, most notably caused by the immense image resolution and limited annotations. WSIs commonly exhibit resolutions of 100Kx100K pixels. Annotating cancerous areas in WSIs on the pixel level is prohibitively labor-intensive and requires a high level of expert knowledge. Multiple instance learning (MIL) alleviates the need for expensive pixel-level annotations. In MIL, learning is performed on slide-level labels, in which a pathologist provides information about whether a slide includes cancerous tissue. Here, we propose Self-ViT-MIL, a novel approach for classifying and localizing cancerous areas based on slide-level annotations, eliminating the need for pixel-wise annotated training data. Self-ViT- MIL is pre-trained in a self-supervised setting to learn rich feature representation without relying on any labels. The recent Vision Transformer (ViT) architecture builds the feature extractor of Self-ViT-MIL. For localizing cancerous regions, a MIL aggregator with global attention is utilized. To the best of our knowledge, Self-ViT- MIL is the first approach to introduce self-supervised ViTs in MIL-based WSI analysis tasks. We showcase the effectiveness of our approach on the common Camelyon16 dataset. Self-ViT-MIL surpasses existing state-of-the-art MIL-based approaches in terms of accuracy and area under the curve (AUC).

arxiv情報

著者 Ahmet Gokberk Gul,Oezdemir Cetin,Christoph Reich,Tim Prangemeier,Nadine Flinner,Heinz Koeppl
発行日 2022-10-17 12:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク