要約
Multi-Instance Learning(MIL)は病理学的画像分類に成功しましたが、Gigapixel Whole Slide画像(WSI)からの多数のパッチを処理するため、高い推論コストの課題に直面しています。
これに対処するために、無関係なパッチを排除することにより迅速かつ正確な分類を実現する階層蒸留マルチインスタンス学習フレームワークであるHDMILを提案します。
HDMILは、動的マルチインスタンスネットワーク(DMIN)と軽量インスタンスプレスクリーニングネットワーク(LIPN)の2つの重要なコンポーネントで構成されています。
DMINは高解像度のWSIで動作し、LIPNは対応する低解像度の対応物で動作します。
トレーニング中、DMINは、無関係なパッチを示す注意スコアベースのマスクを生成しながら、WSI分類のためにトレーニングされます。
これらのマスクは、各低解像度パッチの関連性を予測するために、LIPNのトレーニングを導きます。
テスト中、LIPNは最初に低解像度WSI内の有用な領域を決定します。これにより、間接的に高解像度WSIの無関係な領域を排除することができ、パフォーマンスの悪化を引き起こすことなく推論時間を削減できます。
さらに、計算病理学における最初のChebyshev-PolynomialsベースのKolmogorov-Arnold分類器をさらに設計し、学習可能な活性化層を介してHDMILの性能を向上させます。
3つのパブリックデータセットでの広範な実験は、HDMILが以前の最先端の方法を上回ることを示しています。たとえば、AUCで3.13%の改善を達成しながら、Camelyon16データセットで推論時間を28.6%削減します。
要約(オリジナル)
Although multi-instance learning (MIL) has succeeded in pathological image classification, it faces the challenge of high inference costs due to processing numerous patches from gigapixel whole slide images (WSIs). To address this, we propose HDMIL, a hierarchical distillation multi-instance learning framework that achieves fast and accurate classification by eliminating irrelevant patches. HDMIL consists of two key components: the dynamic multi-instance network (DMIN) and the lightweight instance pre-screening network (LIPN). DMIN operates on high-resolution WSIs, while LIPN operates on the corresponding low-resolution counterparts. During training, DMIN are trained for WSI classification while generating attention-score-based masks that indicate irrelevant patches. These masks then guide the training of LIPN to predict the relevance of each low-resolution patch. During testing, LIPN first determines the useful regions within low-resolution WSIs, which indirectly enables us to eliminate irrelevant regions in high-resolution WSIs, thereby reducing inference time without causing performance degradation. In addition, we further design the first Chebyshev-polynomials-based Kolmogorov-Arnold classifier in computational pathology, which enhances the performance of HDMIL through learnable activation layers. Extensive experiments on three public datasets demonstrate that HDMIL outperforms previous state-of-the-art methods, e.g., achieving improvements of 3.13% in AUC while reducing inference time by 28.6% on the Camelyon16 dataset.
arxiv情報
| 著者 | Jiuyang Dong,Junjun Jiang,Kui Jiang,Jiahan Li,Yongbing Zhang |
| 発行日 | 2025-02-28 15:10:07+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google