A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models

要約

深層学習の最近の進歩により、計算病理学 (CPath) の領域は完全に変わりました。
より具体的には、基礎モデル (FM) と視覚言語モデル (VLM) を評価と意思決定のプロセスに統合することで、病理学者の診断ワークフローを変えました。
CPath における既存の深層学習アプローチの制限は、明示的な監視なしでさまざまな下流タスクに適応できる表現空間を学習することで FM によって克服できます。
VLM を導入すると、自然言語で書かれた病理レポートを豊富なセマンティック情報ソースとして使用して、既存のモデルを改善したり、自然言語形式で予測を生成したりできます。
この調査では、CPath における FM および VLM の最近の技術革新の全体的かつ系統的な概要が示されています。
さらに、これらのモデルのツール、データセット、トレーニング スキームが、個別のグループに分類されるだけでなく、要約されています。
この広範な調査は、CPath の現在の傾向と、将来的に FM と VLM を使用することで起こり得る革命を浮き彫りにしています。

要約(オリジナル)

Recent advances in deep learning have completely transformed the domain of computational pathology (CPath). More specifically, it has altered the diagnostic workflow of pathologists by integrating foundation models (FMs) and vision-language models (VLMs) in their assessment and decision-making process. The limitations of existing deep learning approaches in CPath can be overcome by FMs through learning a representation space that can be adapted to a wide variety of downstream tasks without explicit supervision. Deploying VLMs allow pathology reports written in natural language be used as rich semantic information sources to improve existing models as well as generate predictions in natural language form. In this survey, a holistic and systematic overview of recent innovations in FMs and VLMs in CPath is presented. Furthermore, the tools, datasets and training schemes for these models are summarized in addition to categorizing them into distinct groups. This extensive survey highlights the current trends in CPath and its possible revolution through the use of FMs and VLMs in the future.

arxiv情報

著者 Dibaloke Chanda,Milan Aryal,Nasim Yahya Soltani,Masoud Ganji
発行日 2024-09-18 15:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.IV パーマリンク