要約
基礎モデルは、計算病理学(CPATH)の強力なパラダイムとして浮上し、組織病理学的画像のスケーラブルで一般化可能な分析を可能にしました。
視覚データのみで訓練されたユニモーダルモデルを中心とした初期の開発は、最近の進歩により、テキストレポート、構造化ドメイン知識、分子プロファイルなどの異種のデータソースを統合するマルチモーダルファンデーションモデルの約束を強調しています。
この調査では、ヘマトキシリンとエオシン(H&E)染色された全体のスライド画像(WSI)およびタイルレベルの表現に基づいて構築されたモデルに特に焦点を当てて、CPATのマルチモーダル基礎モデルの包括的かつ最新のレビューを提供します。
32の最先端のマルチモーダルファンデーションモデルを、ビジョン言語、ビジョン知識グラフ、視覚遺伝子表現の3つの主要なパラダイムに分類します。
さらに、Vision-Languageモデルを非LLMベースのLLMベースのアプローチに分割します。
さらに、病理学に合わせて調整された28の利用可能なマルチモーダルデータセットを分析し、画像テキストペア、命令データセット、および画像の他のモダリティペアにグループ化します。
また、私たちの調査では、下流のタスクの分類法を提示し、トレーニングと評価戦略を強調し、重要な課題と将来の方向性を特定します。
この調査は、病理とAIの交差点で働く研究者と実践者にとって貴重なリソースとして役立つことを目指しています。
要約(オリジナル)
Foundation models have emerged as a powerful paradigm in computational pathology (CPath), enabling scalable and generalizable analysis of histopathological images. While early developments centered on uni-modal models trained solely on visual data, recent advances have highlighted the promise of multi-modal foundation models that integrate heterogeneous data sources such as textual reports, structured domain knowledge, and molecular profiles. In this survey, we provide a comprehensive and up-to-date review of multi-modal foundation models in CPath, with a particular focus on models built upon hematoxylin and eosin (H&E) stained whole slide images (WSIs) and tile-level representations. We categorize 32 state-of-the-art multi-modal foundation models into three major paradigms: vision-language, vision-knowledge graph, and vision-gene expression. We further divide vision-language models into non-LLM-based and LLM-based approaches. Additionally, we analyze 28 available multi-modal datasets tailored for pathology, grouped into image-text pairs, instruction datasets, and image-other modality pairs. Our survey also presents a taxonomy of downstream tasks, highlights training and evaluation strategies, and identifies key challenges and future directions. We aim for this survey to serve as a valuable resource for researchers and practitioners working at the intersection of pathology and AI.
arxiv情報
著者 | Dong Li,Guihong Wan,Xintao Wu,Xinyu Wu,Xiaohui Chen,Yi He,Christine G. Lian,Peter K. Sorger,Yevgeniy R. Semenov,Chen Zhao |
発行日 | 2025-03-20 16:43:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google