要約
組織病理学のための深層学習は、疾患分類、画像セグメンテーションなどに使用されて成功しています。
しかし、現在の最先端の方法を使用して画像とテキストのモダリティを組み合わせるのは、病理組織画像の解像度が高いため、困難でした。
病理組織画像のレポートの自動生成もそのような課題の 1 つです。
この研究では、既存の事前トレーニング済み Vision Transformer を、最初にスライド画像全体 (WSI) の 4096×4096 サイズのパッチをエンコードするために使用し、次にそれをエンコーダおよび LSTM デコーダとして使用する 2 段階のプロセスで使用することを示します。
レポート生成を利用すると、パッチだけではなく高解像度画像全体を考慮した、かなりパフォーマンスが高く移植可能なレポート生成メカニズムを構築できます。
また、既存の強力な事前トレーニング済み階層型ビジョン トランスフォーマーの表現を使用することもでき、ゼロ ショット分類だけでなくレポート生成にもその有用性を示すことができます。
要約(オリジナル)
Deep learning for histopathology has been successfully used for disease classification, image segmentation and more. However, combining image and text modalities using current state-of-the-art methods has been a challenge due to the high resolution of histopathology images. Automatic report generation for histopathology images is one such challenge. In this work, we show that using an existing pre-trained Vision Transformer in a two-step process of first using it to encode 4096×4096 sized patches of the Whole Slide Image (WSI) and then using it as the encoder and an LSTM decoder for report generation, we can build a fairly performant and portable report generation mechanism that takes into account the whole of the high resolution image, instead of just the patches. We are also able to use representations from an existing powerful pre-trained hierarchical vision transformer and show its usefulness in not just zero shot classification but also for report generation.
arxiv情報
著者 | Saurav Sengupta,Donald E. Brown |
発行日 | 2023-11-10 16:48:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google