Memory-Efficient Sparse Pyramid Attention Networks for Whole Slide Image Analysis

要約

Whole Slide Images (WSI) は現代の病理学的診断に不可欠ですが、そのギガピクセルスケールの解像度と情報領域がまばらであるため、計算処理に大きな課題が生じます。
コンピューター ビジョンや自然言語処理で広く使用されている従来のデンス アテンション メカニズムは、データの規模が大きく、情報のない領域の冗長な処理のため、WSI 分析では実用的ではありません。
これらの課題に対処するために、他の分野の最先端のスパース アテンション技術からインスピレーションを得て、シフト ウィンドウを使用したメモリ効率の高いスパース ピラミッド アテンション ネットワーク (SPAN) を提案します。
SPAN は、WSI 内の情報領域に階層的に焦点を当てるスパース ピラミッド アテンション アーキテクチャを導入し、重要な機能を維持しながらメモリ オーバーヘッドを削減することを目的としています。
さらに、シフト ウィンドウを組み込むことにより、モデルは正確な分類に不可欠な長距離のコンテキスト依存関係をキャプチャできるようになります。
私たちは、複数の公開 WSI データセットで SPAN を評価し、その競合パフォーマンスを観察しました。
メモリの制約により、空間情報やコンテキスト情報のモデル化に苦労することが多い既存の手法とは異なり、私たちのアプローチでは、これらの重要な特徴の正確なモデル化が可能になります。
私たちの調査では、シフト ウィンドウ スキームや階層構造など、WSI 分析における SPAN の有効性に大きく貢献する、アテンション メカニズムにおける主要な設計要素の重要性も強調しています。
このように、メモリ効率が高く、WSI データを効果的に分析できる SPAN の可能性が証明されており、コードはこの研究の出版後に一般公開される予定です。

要約(オリジナル)

Whole Slide Images (WSIs) are crucial for modern pathological diagnosis, yet their gigapixel-scale resolutions and sparse informative regions pose significant computational challenges. Traditional dense attention mechanisms, widely used in computer vision and natural language processing, are impractical for WSI analysis due to the substantial data scale and the redundant processing of uninformative areas. To address these challenges, we propose Memory-Efficient Sparse Pyramid Attention Networks with Shifted Windows (SPAN), drawing inspiration from state-of-the-art sparse attention techniques in other domains. SPAN introduces a sparse pyramid attention architecture that hierarchically focuses on informative regions within the WSI, aiming to reduce memory overhead while preserving critical features. Additionally, the incorporation of shifted windows enables the model to capture long-range contextual dependencies essential for accurate classification. We evaluated SPAN on multiple public WSI datasets, observing its competitive performance. Unlike existing methods that often struggle to model spatial and contextual information due to memory constraints, our approach enables the accurate modeling of these crucial features. Our study also highlights the importance of key design elements in attention mechanisms, such as the shifted-window scheme and the hierarchical structure, which contribute substantially to the effectiveness of SPAN in WSI analysis. The potential of SPAN for memory-efficient and effective analysis of WSI data is thus demonstrated, and the code will be made publicly available following the publication of this work.

arxiv情報

著者 Weiyi Wu,Chongyang Gao,Xinwen Xu,Siting Li,Jiang Gui
発行日 2024-06-13 17:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク