DSCA: A Dual-Stream Network with Cross-Attention on Whole-Slide Image Pyramids for Cancer Prognosis


ギガピクセルのホール スライド画像 (WSI) でのがんの予後は、常に困難な課題でした。
WSI の視覚的表現をさらに強化するために、既存の方法では、WSI で単一解像度の画像ではなく、画像ピラミッドを調査してきました。
それにもかかわらず、彼らは依然として 2 つの主要な問題に直面しています: 高い計算コストと、マルチ解像度の特徴融合における見過ごされがちな意味のギャップです。
これらの問題に取り組むために、このホワイト ペーパーでは、WSI ピラミッドを新しい観点から効率的に活用することを提案します。これは、相互注意を伴うデュアル ストリーム ネットワーク (DSCA) です。
私たちの重要なアイデアは、2 つのサブストリームを利用して 2 つの解像度で WSI パッチを処理することです。高解像度ストリームで正方形プーリングを考案し、計算コストを大幅に削減し、適切に処理するためにクロスアテンション ベースの方法を提案します。
1,911 人の患者からの合計 3,101 の WSI を含む 3 つの公開データセットで DSCA を検証します。
私たちの実験とアブレーション研究は、(i) 提案された DSCA が癌の予後における既存の最先端の方法よりも優れていることを確認しています。
(ii) 私たちの DSCA ネットワークは、計算においてより効率的です。典型的な既存の多重解像度ネットワークと比較して、より多くの学習可能なパラメーター (6.31M 対 860.18K) を持ちますが、計算コストは​​少なくなります (2.51G 対 4.94G)。
(iii) DSCA の主要コンポーネントであるデュアルストリームとクロスアテンションは、実際にモデルのパフォーマンスに貢献し、比較的小さな計算負荷を維持しながら平均 C-Index を約 2.0% 上昇させました。
私たちの DSCA は、WSI ベースの癌予後のための代替的かつ効果的なツールとして役立つ可能性があります。


The cancer prognosis on gigapixel Whole-Slide Images (WSIs) has always been a challenging task. To further enhance WSI visual representations, existing methods have explored image pyramids, instead of single-resolution images, in WSIs. In spite of this, they still face two major problems: high computational cost and the unnoticed semantical gap in multi-resolution feature fusion. To tackle these problems, this paper proposes to efficiently exploit WSI pyramids from a new perspective, the dual-stream network with cross-attention (DSCA). Our key idea is to utilize two sub-streams to process the WSI patches with two resolutions, where a square pooling is devised in a high-resolution stream to significantly reduce computational costs, and a cross-attention-based method is proposed to properly handle the fusion of dual-stream features. We validate our DSCA on three publicly-available datasets with a total number of 3,101 WSIs from 1,911 patients. Our experiments and ablation studies verify that (i) the proposed DSCA could outperform existing state-of-the-art methods in cancer prognosis, by an average C-Index improvement of around 4.6%; (ii) our DSCA network is more efficient in computation — it has more learnable parameters (6.31M vs. 860.18K) but less computational costs (2.51G vs. 4.94G), compared to a typical existing multi-resolution network. (iii) the key components of DSCA, dual-stream and cross-attention, indeed contribute to our model’s performance, gaining an average C-Index rise of around 2.0% while maintaining a relatively-small computational load. Our DSCA could serve as an alternative and effective tool for WSI-based cancer prognosis.


著者 Pei Liu,Bo Fu,Feng Ye,Rui Yang,Bin Xu,Luping Ji
発行日 2022-09-16 15:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク