What a Whole Slide Image Can Tell? Subtype-guided Masked Transformer for Pathological Image Captioning

要約

全スライド画像 (WSI) の病理学的キャプションは、コンピューター支援による病理学的診断に不可欠ですが、データセットとモデルのトレーニング効果に制限があるため、ほとんど研究されていません。
本稿では、WSIをスパースパッチのシーケンスとして扱い、そのシーケンスから全体的なキャプション文を生成する、Transformersに基づく病理学的キャプションのための新しいパラダイムSubtype-guided Masked Transformer(SGMT)を提案します。
付随するサブタイプ予測が SGMT に導入され、トレーニング プロセスをガイドし、キャプションの精度が向上します。
また、SGMT のシーケンス パッチの数がトレーニング フェーズと推論フェーズでそれぞれ異なる方法でサンプリングされる、病理学的画像キャプションの大サイズ制約に取り組むための非対称マスク メカニズム アプローチも紹介します。
PatchGastricADC22 データセットの実験では、私たちのアプローチがトランスフォーマー ベースのモデルを使用したタスクに効果的に適応し、従来の RNN ベースの方法よりも優れたパフォーマンスを達成できることが実証されました。
私たちのコードはさらなる研究開発のために利用できるようになります。

要約(オリジナル)

Pathological captioning of Whole Slide Images (WSIs), though is essential in computer-aided pathological diagnosis, has rarely been studied due to the limitations in datasets and model training efficacy. In this paper, we propose a new paradigm Subtype-guided Masked Transformer (SGMT) for pathological captioning based on Transformers, which treats a WSI as a sequence of sparse patches and generates an overall caption sentence from the sequence. An accompanying subtype prediction is introduced into SGMT to guide the training process and enhance the captioning accuracy. We also present an Asymmetric Masked Mechansim approach to tackle the large size constraint of pathological image captioning, where the numbers of sequencing patches in SGMT are sampled differently in the training and inferring phases, respectively. Experiments on the PatchGastricADC22 dataset demonstrate that our approach effectively adapts to the task with a transformer-based model and achieves superior performance than traditional RNN-based methods. Our codes are to be made available for further research and development.

arxiv情報

著者 Wenkang Qin,Rui Xu,Peixiang Huang,Xiaomin Wu,Heyu Zhang,Lin Luo
発行日 2023-10-31 16:43:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク