Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image Classification Using Transformers

要約

タイトル:トランスフォーマーを用いたデータ効率の良い全スライド画像分類のためのカスケード交差注意ネットワーク

要約:

– Whole-Slide Imagingは、組織の高解像度画像をキャプチャしデジタル化することを可能にします。
– こうした画像の自動分析は深層学習モデルを使用することで可能になるため、需要があります。
– トランスフォーマーアーキテクチャは、高解像度情報を効果的に活用する可能性があると提案されています。
– トランスフォーマーは、大量の入力トークンを同時に処理することができますが、入力トークンの数に比例して計算量が増加するため、この方法は問題があります。
– 提案されたカスケード交差注意ネットワークは、トランスフォーマーの欠点を改善し、線形スケールに対応することができます。
– 実験により、このアーキテクチャは、他のアテンションベースの最新手法と同等以上に優れた性能を発揮することが示されました。
– 低データ領域でも効果的であることが示され、資源の限られた環境で全スライド画像を分析するための有望なアプローチとなります。
– コードはGitHubで公開されています。

要約(オリジナル)

Whole-Slide Imaging allows for the capturing and digitization of high-resolution images of histological specimen. An automated analysis of such images using deep learning models is therefore of high demand. The transformer architecture has been proposed as a possible candidate for effectively leveraging the high-resolution information. Here, the whole-slide image is partitioned into smaller image patches and feature tokens are extracted from these image patches. However, while the conventional transformer allows for a simultaneous processing of a large set of input tokens, the computational demand scales quadratically with the number of input tokens and thus quadratically with the number of image patches. To address this problem we propose a novel cascaded cross-attention network (CCAN) based on the cross-attention mechanism that scales linearly with the number of extracted patches. Our experiments demonstrate that this architecture is at least on-par with and even outperforms other attention-based state-of-the-art methods on two public datasets: On the use-case of lung cancer (TCGA NSCLC) our model reaches a mean area under the receiver operating characteristic (AUC) of 0.970 $\pm$ 0.008 and on renal cancer (TCGA RCC) reaches a mean AUC of 0.985 $\pm$ 0.004. Furthermore, we show that our proposed model is efficient in low-data regimes, making it a promising approach for analyzing whole-slide images in resource-limited settings. To foster research in this direction, we make our code publicly available on GitHub: XXX.

arxiv情報

著者 Firas Khader,Jakob Nikolas Kather,Tianyu Han,Sven Nebelung,Christiane Kuhl,Johannes Stegmaier,Daniel Truhn
発行日 2023-05-11 16:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク