A Knowledge-enhanced Pathology Vision-language Foundation Model for Cancer Diagnosis

要約

ディープラーニングにより、さまざまな疾患や患者コホートにわたるさまざまな病理学的タスクのための非常に堅牢な基礎モデルの開発が可能になりました。
これらのモデルのうち、ビジョン言語の事前トレーニングは、大規模なペアデータを活用して病理画像とテキストの埋め込み空間を位置合わせし、下流タスクに新しいゼロショットパラダイムを提供します。
しかし、既存のモデルは主にデータ主導型であり、領域固有の知識が組み込まれていないため、がん診断、特にまれな腫瘍サブタイプのパフォーマンスが制限されています。
この制限に対処するために、私たちは疾患の知識を活用して視覚言語の事前トレーニングを促進する知識強化病理学 (KEEP) 基盤モデルを確立します。
具体的には、まず、同義語、定義、および上位語関係を含む 139,143 の疾患属性を持つ 11,454 のヒト疾患をカバーする疾患ナレッジ グラフ (KG) を構築します。
次に、公開されている何百万ものノイズの多い病理画像とテキストのペアを、KG という病気の階層関係を通じてリンクされた 143,000 のよく構造化された意味論的なグループに体系的に再編成します。
より微妙な画像とテキストの表現を導き出すために、構造化されていない画像とテキストのペアではなく、階層的意味論的グループ内の調整に疾患の知識を統合する、新しい知識強化視覚言語事前トレーニングアプローチを提案します。
KEEP は、14,000 を超える全スライド画像 (WSI) を含む 18 の多様なベンチマークで検証され、ゼロショットがん診断タスクで最先端のパフォーマンスを実現します。
特にがん検出に関しては、KEEP は 7 種類のがんにわたって平均感度 89.8%、特異度 95.0% を示しています。
がんのサブタイピングについては、KEEP は 30 の希少脳腫瘍のサブタイピングにおいて 0.456 というバランスの取れた精度中央値を達成しており、希少腫瘍の診断に対する強い一般化可能性を示しています。

要約(オリジナル)

Deep learning has enabled the development of highly robust foundation models for various pathological tasks across diverse diseases and patient cohorts. Among these models, vision-language pre-training, which leverages large-scale paired data to align pathology image and text embedding spaces, and provides a novel zero-shot paradigm for downstream tasks. However, existing models have been primarily data-driven and lack the incorporation of domain-specific knowledge, which limits their performance in cancer diagnosis, especially for rare tumor subtypes. To address this limitation, we establish a Knowledge-enhanced Pathology (KEEP) foundation model that harnesses disease knowledge to facilitate vision-language pre-training. Specifically, we first construct a disease knowledge graph (KG) that covers 11,454 human diseases with 139,143 disease attributes, including synonyms, definitions, and hypernym relations. We then systematically reorganize the millions of publicly available noisy pathology image-text pairs, into 143K well-structured semantic groups linked through the hierarchical relations of the disease KG. To derive more nuanced image and text representations, we propose a novel knowledge-enhanced vision-language pre-training approach that integrates disease knowledge into the alignment within hierarchical semantic groups instead of unstructured image-text pairs. Validated on 18 diverse benchmarks with more than 14,000 whole slide images (WSIs), KEEP achieves state-of-the-art performance in zero-shot cancer diagnostic tasks. Notably, for cancer detection, KEEP demonstrates an average sensitivity of 89.8% at a specificity of 95.0% across 7 cancer types. For cancer subtyping, KEEP achieves a median balanced accuracy of 0.456 in subtyping 30 rare brain cancers, indicating strong generalizability for diagnosing rare tumors.

arxiv情報

著者 Xiao Zhou,Luoyi Sun,Dexuan He,Wenbin Guan,Ruifen Wang,Lifeng Wang,Xin Sun,Kun Sun,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2024-12-17 17:45:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク