要約
病理診断における人工知能(AI)の役割は、診断の補助から、全スライド画像(WSI)における予測的な形態学的パターンの発見へと発展してきた。近年、自己教師付き事前学習を活用した基盤モデル(FM)が、多様な下流タスクに対する普遍的なソリューションとして広く提唱されている。しかし、タスク固有(TS)モデルを用いたエンド・ツー・エンド学習と比較した場合の臨床適用性や汎化の優位性については、未解決の問題が残されている。ここでは、前立腺がんの診断とグリソングレーディングにおいて、臨床レベルの性能を持つAIに焦点を当てた。11カ国15施設にわたる7,342人の患者から採取した100,000以上のコア針生検を用いて、このタスクに対するAIの最大規模の検証を行った。我々は、2つのFMと、多重インスタンス学習フレームワークにおける完全なエンドツーエンドのTSモデルとを比較した。我々の知見は、FMが普遍的にTSモデルを凌駕するという仮定を覆すものであった。FMはデータが乏しいシナリオにおいて有用性を示したが、十分なラベル付き訓練データが利用可能な場合、その性能はTSモデルに収束し、場合によってはそれを上回った。特筆すべきは、タスクに特化した広範なトレーニングにより、臨床的に重大な誤判定、困難な形態の誤診、異なるWSIスキャナー間でのばらつきが著しく減少したことである。さらに、FMはTSモデルの最大35倍のエネルギーを使用したため、その持続可能性に懸念が生じた。我々の結果は、FMがラピッドプロトタイピングや研究には明確な利点を提供するものの、臨床応用可能な医療AIの普遍的なソリューションとしての役割はまだ不確かであることを強調するものである。臨床応用のためには、厳密な検証とタスクに特化したトレーニングの考慮が引き続き決定的に重要である。我々は、FMとエンド・ツー・エンド学習の長所を統合し、臨床使用に適した堅牢でリソース効率の高いAI病理学ソリューションを実現することを提唱する。
要約(オリジナル)
The role of artificial intelligence (AI) in pathology has evolved from aiding diagnostics to uncovering predictive morphological patterns in whole slide images (WSIs). Recently, foundation models (FMs) leveraging self-supervised pre-training have been widely advocated as a universal solution for diverse downstream tasks. However, open questions remain about their clinical applicability and generalization advantages over end-to-end learning using task-specific (TS) models. Here, we focused on AI with clinical-grade performance for prostate cancer diagnosis and Gleason grading. We present the largest validation of AI for this task, using over 100,000 core needle biopsies from 7,342 patients across 15 sites in 11 countries. We compared two FMs with a fully end-to-end TS model in a multiple instance learning framework. Our findings challenge assumptions that FMs universally outperform TS models. While FMs demonstrated utility in data-scarce scenarios, their performance converged with – and was in some cases surpassed by – TS models when sufficient labeled training data were available. Notably, extensive task-specific training markedly reduced clinically significant misgrading, misdiagnosis of challenging morphologies, and variability across different WSI scanners. Additionally, FMs used up to 35 times more energy than the TS model, raising concerns about their sustainability. Our results underscore that while FMs offer clear advantages for rapid prototyping and research, their role as a universal solution for clinically applicable medical AI remains uncertain. For high-stakes clinical applications, rigorous validation and consideration of task-specific training remain critically important. We advocate for integrating the strengths of FMs and end-to-end learning to achieve robust and resource-efficient AI pathology solutions fit for clinical use.
arxiv情報
著者 | Nita Mulliqi,Anders Blilie,Xiaoyi Ji,Kelvin Szolnoky,Henrik Olsson,Sol Erika Boman,Matteo Titus,Geraldine Martinez Gonzalez,Julia Anna Mielcarz,Masi Valkonen,Einar Gudlaugsson,Svein R. Kjosavik,José Asenjo,Marcello Gambacorta,Paolo Libretti,Marcin Braun,Radzislaw Kordek,Roman Łowicki,Kristina Hotakainen,Päivi Väre,Bodil Ginnerup Pedersen,Karina Dalsgaard Sørensen,Benedicte Parm Ulhøi,Pekka Ruusuvuori,Brett Delahunt,Hemamali Samaratunga,Toyonori Tsuzuki,Emilius A. M. Janssen,Lars Egevad,Martin Eklund,Kimmo Kartasalo |
発行日 | 2025-03-03 10:35:23+00:00 |
arxivサイト | arxiv_id(pdf) |