要約
組織病理学は、臨床医学および生物医学研究において中心的な役割を果たしています。
人工知能は多くの病理学的タスクで有望な結果を示していますが、トレーニングデータが不足している希少疾患への一般化と対処は依然として課題です。
潜在的に限定されたラベル付きデータから学習する前に、ラベルなしデータから基礎モデルに知識を抽出することで、これらの課題に対処する実行可能な道が提供されます。
この研究では、半自動データキュレーションと病理学者の専門分野の知識の組み込みによって、デジタル病理学のスライド画像全体の基礎モデルの最先端技術を拡張します。
具体的には、コンピューターと病理医の分野の知識 (1) を組み合わせて、さまざまな固定、染色、スキャン プロトコルからのデータ、および EU および欧州全域のさまざまな適応症や検査機関からのデータをカバーする 7 億 5,000 万の画像パッチに対応する 103,000 枚のスライドからなる多様なデータセットを厳選しています。
US、(2) 意味的に類似したスライドと組織パッチをグループ化するため、(3) トレーニング中に入力画像を拡張するため。
結果のモデルを一連の公開ベンチマークと内部ベンチマークで評価し、基礎モデルが桁違いに少ないスライドでトレーニングされているにも関わらず、競合モデルと同等以上のパフォーマンスを発揮することを示しました。
私たちは、より多くのデータとより大規模なモデルへのアプローチを拡張することで、診断や生物医学研究におけるますます複雑になる現実世界のタスクに対処するパフォーマンスと能力がさらに向上すると期待しています。
要約(オリジナル)
Histopathology plays a central role in clinical medicine and biomedical research. While artificial intelligence shows promising results on many pathological tasks, generalization and dealing with rare diseases, where training data is scarce, remains a challenge. Distilling knowledge from unlabeled data into a foundation model before learning from, potentially limited, labeled data provides a viable path to address these challenges. In this work, we extend the state of the art of foundation models for digital pathology whole slide images by semi-automated data curation and incorporating pathologist domain knowledge. Specifically, we combine computational and pathologist domain knowledge (1) to curate a diverse dataset of 103k slides corresponding to 750 million image patches covering data from different fixation, staining, and scanning protocols as well as data from different indications and labs across the EU and US, (2) for grouping semantically similar slides and tissue patches, and (3) to augment the input images during training. We evaluate the resulting model on a set of public and internal benchmarks and show that although our foundation model is trained with an order of magnitude less slides, it performs on par or better than competing models. We expect that scaling our approach to more data and larger models will further increase its performance and capacity to deal with increasingly complex real world tasks in diagnostics and biomedical research.
arxiv情報
著者 | Jonas Dippel,Barbara Feulner,Tobias Winterhoff,Simon Schallenberg,Gabriel Dernbach,Andreas Kunft,Stephan Tietz,Philipp Jurmeister,David Horst,Lukas Ruff,Klaus-Robert Müller,Frederick Klauschen,Maximilian Alber |
発行日 | 2024-01-23 18:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google