要約
全体のスライド画像(WSI)は、医療診断で広く使用されている高解像度のデジタルスキャンです。
通常、WSI分類は、複数のインスタンス学習(MIL)を使用してアプローチされます。ここでは、スライドが相互接続されたインスタンスとして扱われたタイルに分割されます。
注意ベースのMILメソッドは、最も有益なタイルを特定することを目的としていますが、それらはそれらの間の空間的関係を完全に活用することに失敗することが多く、正確な診断に不可欠な複雑な組織構造を見落とす可能性があります。
この制限に対処するために、事後分布としての確率的解釈の中で定式化された学習可能な距離測定された事前に空間的コンテキストを注意メカニズムに統合する新しい注意ベースのMILフレームワークである、確率的空間的注意MIL(PSA-MIL)を提案します。
この定式化により、トレーニング中の空間関係の動的推論が可能になり、以前のアプローチによってしばしば課される事前定義された仮定の必要性が排除されます。
さらに、事後の空間的剪定戦略を提案し、自己attentionの二次の複雑さを効果的に減らします。
空間モデリングをさらに強化するために、注意ヘッド間の変動を促進する多様性の損失を導入し、それぞれが異なる空間表現をキャプチャするようにします。
一緒に、PSA-MILは、定義された制約を超えて、よりデータ駆動型の適応的な空間コンテキストの統合を可能にします。
コンテキストと非文脈の両方のベースラインで最先端のパフォーマンスを達成し、計算コストを大幅に削減します。
要約(オリジナル)
Whole Slide Images (WSIs) are high-resolution digital scans widely used in medical diagnostics. WSI classification is typically approached using Multiple Instance Learning (MIL), where the slide is partitioned into tiles treated as interconnected instances. While attention-based MIL methods aim to identify the most informative tiles, they often fail to fully exploit the spatial relationships among them, potentially overlooking intricate tissue structures crucial for accurate diagnosis. To address this limitation, we propose Probabilistic Spatial Attention MIL (PSA-MIL), a novel attention-based MIL framework that integrates spatial context into the attention mechanism through learnable distance-decayed priors, formulated within a probabilistic interpretation of self-attention as a posterior distribution. This formulation enables a dynamic inference of spatial relationships during training, eliminating the need for predefined assumptions often imposed by previous approaches. Additionally, we suggest a spatial pruning strategy for the posterior, effectively reducing self-attention’s quadratic complexity. To further enhance spatial modeling, we introduce a diversity loss that encourages variation among attention heads, ensuring each captures distinct spatial representations. Together, PSA-MIL enables a more data-driven and adaptive integration of spatial context, moving beyond predefined constraints. We achieve state-of-the-art performance across both contextual and non-contextual baselines, while significantly reducing computational costs.
arxiv情報
著者 | Sharon Peled,Yosef E. Maruvka,Moti Freiman |
発行日 | 2025-03-20 16:12:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google