Visual Language Pretrained Multiple Instance Zero-Shot Transfer for Histopathology Images

要約

対照的な視覚言語の事前トレーニングは、新しい言語対応画像エンコーダーをトレーニングしたり、既存の事前トレーニング済みモデルをゼロショット視覚認識機能で強化したりするための強力な方法として登場しました。
ただし、既存の研究は通常、画像とテキストのペアの大規模なデータセットでトレーニングされ、小規模から中規模の画像のみを含む下流タスクを実行するように設計されており、公開されているペアが限られている計算病理学の新興分野にはどちらも適用できません。
画像とテキストのデータセットであり、各画像は最大 100,000 x 100,000 ピクセルに及ぶことができます。
この論文では、MI-Zero を紹介します。MI-Zero は、ギガピクセルの病理組織スライド画像上で対照的に位置合わせされた画像およびテキスト モデルのゼロショット転送機能を解放するためのシンプルで直観的なフレームワークです。これにより、複数の下流の診断タスクを事前トレーニングされたエンコーダによって実行できるようになります。
追加のラベル。
MI-Zero は、非常に大きな画像での推論という計算上の課題を克服するために、マルチ インスタンス学習のフレームワークの下でゼロショット転送を再定式化します。
テキスト エンコーダーを事前トレーニングするために、550,000 を超える病理レポートとその他の利用可能なドメイン内テキスト コーパスを使用しました。
強力な事前トレーニング済みエンコーダーを効果的に活用することで、33,000 を超える病理組織画像とキャプションのペアで事前トレーニングされた当社の最良のモデルは、3 つの異なる現実世界のがんサブタイピング タスク全体で、平均ゼロショット精度中央値 70.2% を達成しました。
私たちのコードは https://github.com/mahmoodlab/MI-Zero で入手できます。

要約(オリジナル)

Contrastive visual language pretraining has emerged as a powerful method for either training new language-aware image encoders or augmenting existing pretrained models with zero-shot visual recognition capabilities. However, existing works typically train on large datasets of image-text pairs and have been designed to perform downstream tasks involving only small to medium sized-images, neither of which are applicable to the emerging field of computational pathology where there are limited publicly available paired image-text datasets and each image can span up to 100,000 x 100,000 pixels. In this paper we present MI-Zero, a simple and intuitive framework for unleashing the zero-shot transfer capabilities of contrastively aligned image and text models on gigapixel histopathology whole slide images, enabling multiple downstream diagnostic tasks to be carried out by pretrained encoders without requiring any additional labels. MI-Zero reformulates zero-shot transfer under the framework of multiple instance learning to overcome the computational challenge of inference on extremely large images. We used over 550k pathology reports and other available in-domain text corpora to pre-train our text encoder. By effectively leveraging strong pre-trained encoders, our best model pretrained on over 33k histopathology image-caption pairs achieves an average median zero-shot accuracy of 70.2% across three different real-world cancer subtyping tasks. Our code is available at: https://github.com/mahmoodlab/MI-Zero.

arxiv情報

著者 Ming Y. Lu,Bowen Chen,Andrew Zhang,Drew F. K. Williamson,Richard J. Chen,Tong Ding,Long Phi Le,Yung-Sung Chuang,Faisal Mahmood
発行日 2023-06-13 15:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク