Fast and Accurate Gigapixel Pathological Image Classification with Hierarchical Distillation Multi-Instance Learning

要約

多インスタンス学習(Multi-Instance Learning: MIL)は病理画像の分類に成功しているが、ギガピクセルのホールスライド画像(Whole Slide Image: WSI)から多数のパッチを処理するため、推論コストが高いという課題に直面している。この課題に対処するため、我々は、無関係なパッチを除去することで高速かつ高精度な分類を実現する、階層的蒸留マルチインスタンス学習フレームワークであるHDMILを提案する。HDMILは、動的マルチインスタンスネットワーク(DMIN)と軽量インスタンス事前スクリーニングネットワーク(LIPN)の2つの主要コンポーネントから構成される。DMINは高解像度のWSIに対して動作し、LIPNは対応する低解像度のWSIに対して動作する。訓練中、DMINはWSI分類のために訓練され、同時に無関係なパッチを示す注意スコアベースのマスクを生成する。これらのマスクは、各低解像度パッチの関連性を予測するためのLIPNの訓練を導く。テスト中、LIPNはまず低解像度WSI内の有用な領域を決定し、これにより間接的に高解像度WSI内の無関係な領域を除去することが可能となり、性能劣化を引き起こすことなく推論時間を短縮する。さらに、学習可能な活性化層によってHDMILの性能を向上させる、計算病理学で初めてのチェビシェフ多項式ベースのコルモゴロフ・アーノルド分類器を設計する。例えば、Camelyon16データセットでは、推論時間を28.6%短縮しながら、AUCで3.13%の改善を達成した。

要約(オリジナル)

Although multi-instance learning (MIL) has succeeded in pathological image classification, it faces the challenge of high inference costs due to processing numerous patches from gigapixel whole slide images (WSIs). To address this, we propose HDMIL, a hierarchical distillation multi-instance learning framework that achieves fast and accurate classification by eliminating irrelevant patches. HDMIL consists of two key components: the dynamic multi-instance network (DMIN) and the lightweight instance pre-screening network (LIPN). DMIN operates on high-resolution WSIs, while LIPN operates on the corresponding low-resolution counterparts. During training, DMIN are trained for WSI classification while generating attention-score-based masks that indicate irrelevant patches. These masks then guide the training of LIPN to predict the relevance of each low-resolution patch. During testing, LIPN first determines the useful regions within low-resolution WSIs, which indirectly enables us to eliminate irrelevant regions in high-resolution WSIs, thereby reducing inference time without causing performance degradation. In addition, we further design the first Chebyshev-polynomials-based Kolmogorov-Arnold classifier in computational pathology, which enhances the performance of HDMIL through learnable activation layers. Extensive experiments on three public datasets demonstrate that HDMIL outperforms previous state-of-the-art methods, e.g., achieving improvements of 3.13% in AUC while reducing inference time by 28.6% on the Camelyon16 dataset.

arxiv情報

著者 Jiuyang Dong,Junjun Jiang,Kui Jiang,Jiahan Li,Yongbing Zhang
発行日 2025-03-03 08:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク