PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology

要約

Pathology Foundationモデルの出現は、計算組織病理学に革命をもたらし、癌診断を改善し、予後評価のために非常に正確で一般化された全面画像分析を可能にします。
これらのモデルは、がんの診断と予後全体で顕著な可能性を示していますが、臨床翻訳は、がんタイプにわたる最適モデルの変動性、評価における潜在的なデータ漏れ、標準化されたベンチマークの欠如など、重要な課題に直面しています。
厳密で公平な評価がなければ、最も高度なPFMSリスクでさえ、研究環境に限定され、命を救うアプリケーションを遅らせます。
既存のベンチマークの取り組みは、狭いがん型の焦点、潜在的な事前トレーニングデータのオーバーラップ、または不完全なタスクカバレッジにより、引き続き制限されています。
これらのギャップに対処する最初の包括的なベンチマークであるPathBenchを提示します。厳密な漏れ防止を伴う共通の癌にまたがるマルチセンターインハースデータセット、診断から予後までの完全な臨床スペクトル全体の評価、および継続的なモデル評価のための自動リーダーボードシステム。
当社のフレームワークには、大規模なデータが組み込まれており、実際の臨床的複雑さを反映しながらPFMの客観的な比較を可能にします。
すべての評価データは、データの漏れリスクを回避するために、事前トレーニング使用を厳密に除外して、民間の医療提供者から来ています。
10人の病院の8,549人の患者から15,888人のWSIを収集し、64人以上の診断と予後のタスクを網羅しています。
現在、19のPFMの評価は、Virchow2とH-Optimus-1が全体的に最も効果的なモデルであることを示しています。
この作業は、研究者にモデル開発のための堅牢なプラットフォームを提供し、多様な臨床シナリオ全体でPFMパフォーマンスに関する臨床医の実用的な洞察を提供し、最終的にこれらの変換技術の日常的な病理学の実践への翻訳を加速させます。

要約(オリジナル)

The emergence of pathology foundation models has revolutionized computational histopathology, enabling highly accurate, generalized whole-slide image analysis for improved cancer diagnosis, and prognosis assessment. While these models show remarkable potential across cancer diagnostics and prognostics, their clinical translation faces critical challenges including variability in optimal model across cancer types, potential data leakage in evaluation, and lack of standardized benchmarks. Without rigorous, unbiased evaluation, even the most advanced PFMs risk remaining confined to research settings, delaying their life-saving applications. Existing benchmarking efforts remain limited by narrow cancer-type focus, potential pretraining data overlaps, or incomplete task coverage. We present PathBench, the first comprehensive benchmark addressing these gaps through: multi-center in-hourse datasets spanning common cancers with rigorous leakage prevention, evaluation across the full clinical spectrum from diagnosis to prognosis, and an automated leaderboard system for continuous model assessment. Our framework incorporates large-scale data, enabling objective comparison of PFMs while reflecting real-world clinical complexity. All evaluation data comes from private medical providers, with strict exclusion of any pretraining usage to avoid data leakage risks. We have collected 15,888 WSIs from 8,549 patients across 10 hospitals, encompassing over 64 diagnosis and prognosis tasks. Currently, our evaluation of 19 PFMs shows that Virchow2 and H-Optimus-1 are the most effective models overall. This work provides researchers with a robust platform for model development and offers clinicians actionable insights into PFM performance across diverse clinical scenarios, ultimately accelerating the translation of these transformative technologies into routine pathology practice.

arxiv情報

著者 Jiabo Ma,Yingxue Xu,Fengtao Zhou,Yihui Wang,Cheng Jin,Zhengrui Guo,Jianfeng Wu,On Ki Tang,Huajun Zhou,Xi Wang,Luyang Luo,Zhengyu Zhang,Du Cai,Zizhao Gao,Wei Wang,Yueping Liu,Jiankun He,Jing Cui,Zhenhui Li,Jing Zhang,Feng Gao,Xiuming Zhang,Li Liang,Ronald Cheong Kin Chan,Zhe Wang,Hao Chen
発行日 2025-05-26 16:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク