Foundation Models — A Panacea for Artificial Intelligence in Pathology?

要約

病理学における人工知能(AI)の役割は、診断を支援することから、全体のスライド画像(WSI)の予測形態パターンの発見に進化しています。
最近、自己監視前のトレーニングを活用する基礎モデル(FMS)は、多様なダウンストリームタスクの普遍的なソリューションとして広く提唱されています。
ただし、タスク固有(TS)モデルを使用したエンドツーエンドの学習に対する臨床的適用性と一般化の利点については、未解決の疑問が残っています。
ここでは、前立腺がんの診断とグリーソングレーディングのための臨床グレードのパフォーマンスを備えたAIに焦点を当てました。
11か国の15のサイトで7,342人の患者から100,000人以上のコアニードル生検を使用して、このタスクのAIの最大の検証を提示します。
複数のインスタンス学習フレームワークで、2つのFMSを完全なエンドツーエンドTSモデルと比較しました。
私たちの調査結果は、FMSがTSモデルを普遍的に上回るという仮定に挑戦します。
FMSはデータスカースシナリオのユーティリティを実証しましたが、そのパフォーマンスは収束しました – 場合によっては、十分なラベル付きトレーニングデータが利用可能である場合に-TSモデルによって超えられました。
特に、広範なタスク固有のトレーニングにより、臨床的に有意な誤分解、挑戦的な形態学の誤診、およびさまざまなWSIスキャナー間の変動性が著しく減少しました。
さらに、FMSはTSモデルの最大35倍のエネルギーを使用し、持続可能性に関する懸念を引き起こしました。
私たちの結果は、FMが迅速なプロトタイピングと研究に明確な利点を提供している一方で、臨床的に適用可能な医療AIの普遍的なソリューションとしての役割は不確実なままであることを強調しています。
ハイステークスの臨床アプリケーションの場合、厳しい検証とタスク固有のトレーニングの検討は非常に重要です。
FMSの強みとエンドツーエンドの学習を統合して、臨床使用に適した堅牢でリソース効率の高いAI病理ソリューションを実現することを提唱しています。

要約(オリジナル)

The role of artificial intelligence (AI) in pathology has evolved from aiding diagnostics to uncovering predictive morphological patterns in whole slide images (WSIs). Recently, foundation models (FMs) leveraging self-supervised pre-training have been widely advocated as a universal solution for diverse downstream tasks. However, open questions remain about their clinical applicability and generalization advantages over end-to-end learning using task-specific (TS) models. Here, we focused on AI with clinical-grade performance for prostate cancer diagnosis and Gleason grading. We present the largest validation of AI for this task, using over 100,000 core needle biopsies from 7,342 patients across 15 sites in 11 countries. We compared two FMs with a fully end-to-end TS model in a multiple instance learning framework. Our findings challenge assumptions that FMs universally outperform TS models. While FMs demonstrated utility in data-scarce scenarios, their performance converged with – and was in some cases surpassed by – TS models when sufficient labeled training data were available. Notably, extensive task-specific training markedly reduced clinically significant misgrading, misdiagnosis of challenging morphologies, and variability across different WSI scanners. Additionally, FMs used up to 35 times more energy than the TS model, raising concerns about their sustainability. Our results underscore that while FMs offer clear advantages for rapid prototyping and research, their role as a universal solution for clinically applicable medical AI remains uncertain. For high-stakes clinical applications, rigorous validation and consideration of task-specific training remain critically important. We advocate for integrating the strengths of FMs and end-to-end learning to achieve robust and resource-efficient AI pathology solutions fit for clinical use.

arxiv情報

著者 Nita Mulliqi,Anders Blilie,Xiaoyi Ji,Kelvin Szolnoky,Henrik Olsson,Sol Erika Boman,Matteo Titus,Geraldine Martinez Gonzalez,Julia Anna Mielcarz,Masi Valkonen,Einar Gudlaugsson,Svein R. Kjosavik,José Asenjo,Marcello Gambacorta,Paolo Libretti,Marcin Braun,Radzislaw Kordek,Roman Łowicki,Kristina Hotakainen,Päivi Väre,Bodil Ginnerup Pedersen,Karina Dalsgaard Sørensen,Benedicte Parm Ulhøi,Pekka Ruusuvuori,Brett Delahunt,Hemamali Samaratunga,Toyonori Tsuzuki,Emilius A. M. Janssen,Lars Egevad,Martin Eklund,Kimmo Kartasalo
発行日 2025-02-28 17:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク