ScoreNet: Learning Non-Uniform Attention and Augmentation for Transformer-Based Histopathological Image Classification

要約

デジタルパソロジーの進歩は、高解像度の画像と徹底的なローカライズされた注釈の法外なコストによって妨げられています。
病理画像を分類するために一般的に使用されるパラダイムはパッチベースの処理であり、多くの場合、複数インスタンス学習(MIL)を組み込んで、画像レベルの予測を生成するローカルパッチレベルの表現を集約します。
それにもかかわらず、診断に関連する領域は組織全体のごく一部しかとらない可能性があり、現在のMILベースのアプローチでは、パッチ間の相互作用を破棄して、画像を均一に処理することがよくあります。
これらの問題を軽減するために、ScoreNetを提案します。これは、微分可能な推奨段階を利用して識別可能な画像領域を抽出し、それに応じて計算リソースを割り当てる新しい効率的なトランスフォーマーです。
提案されたトランスフォーマーは、効率的な計算コストで、動的に推奨されるいくつかの高解像度領域のローカルおよびグローバルな注意を活用します。
さらに、画像のセマンティック分布を活用してデータの混合をガイドし、コヒーレントなサンプルとラベルのペアを生成することにより、新しい混合データ拡張、つまりScoreMixを紹介します。
ScoreMixは恥ずかしいほど単純であり、以前の拡張の落とし穴を軽減します。これは、均一なセマンティック分布を想定し、サンプルに誤ったラベルを付けるリスクがあります。
Haematoxylin&Eosin(H&E)の3つの乳がん組織学データセットに関する徹底的な実験とアブレーション研究により、腫瘍関心領域(TRoI)分類のトランスベースモデルを含む、従来の技術に対するアプローチの優位性が検証されました。
提案されたScoreMix拡張機能を備えたScoreNetは、他の混合拡張機能と比較して、より優れた一般化機能を示し、データのわずか50%で新しい最先端(SOTA)の結果を実現します。
最後に、ScoreNetは高い効率を実現し、SOTA効率の高いトランスフォーマー(TransPathおよびSwinTransformer)よりも優れています。

要約(オリジナル)

Progress in digital pathology is hindered by high-resolution images and the prohibitive cost of exhaustive localized annotations. The commonly used paradigm to categorize pathology images is patch-based processing, which often incorporates multiple instance learning (MIL) to aggregate local patch-level representations yielding image-level prediction. Nonetheless, diagnostically relevant regions may only take a small fraction of the whole tissue, and current MIL-based approaches often process images uniformly, discarding the inter-patches interactions. To alleviate these issues, we propose ScoreNet, a new efficient transformer that exploits a differentiable recommendation stage to extract discriminative image regions and dedicate computational resources accordingly. The proposed transformer leverages the local and global attention of a few dynamically recommended high-resolution regions at an efficient computational cost. We further introduce a novel mixing data-augmentation, namely ScoreMix, by leveraging the image’s semantic distribution to guide the data mixing and produce coherent sample-label pairs. ScoreMix is embarrassingly simple and mitigates the pitfalls of previous augmentations, which assume a uniform semantic distribution and risk mislabeling the samples. Thorough experiments and ablation studies on three breast cancer histology datasets of Haematoxylin & Eosin (H&E) have validated the superiority of our approach over prior arts, including transformer-based models on tumour regions-of-interest (TRoIs) classification. ScoreNet equipped with proposed ScoreMix augmentation demonstrates better generalization capabilities and achieves new state-of-the-art (SOTA) results with only 50% of the data compared to other mixing augmentation variants. Finally, ScoreNet yields high efficacy and outperforms SOTA efficient transformers, namely TransPath and SwinTransformer.

arxiv情報

著者 Thomas Stegmüller,Behzad Bozorgtabar,Antoine Spahr,Jean-Philippe Thiran
発行日 2022-07-18 12:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク