要約
最近の基礎モデルの進歩はコンピュータ・ビジョンに変革をもたらし、デジタル病理組織学を含む様々な領域で大幅な性能向上をもたらしている。しかし、細胞解析のような特殊なタスクに対する汎用モデルに対する、ドメインに特化した病理組織学基礎モデルの利点は、まだ十分に検討されていない。本研究では、細胞インスタンスのセグメンテーションと分類に適用されるマルチレベルパッチ埋め込みを解析することにより、これら2つのカテゴリー間の表現学習のギャップを調査する。我々は一貫したデコーダと様々なエンコーダを持つエンコーダデコーダアーキテクチャを実装する。これらには、ImageNet-22KまたはLVD-142Mで事前に訓練された畳み込み、ビジョン変換(ViT)、およびハイブリッドエンコーダが含まれ、汎用的な基礎モデルを表す。これらは、最近リリースされたUNI、Virchow2、およびProv-GigaPath基礎モデルのViTエンコーダと比較される。ViTエンコーダは、数十万枚の病理組織全体スライド画像から抽出されたパッチで訓練されている。デコーダは、異なるエンコーダ深度からのパッチ埋め込みをスキップ接続を介して統合し、意味マップと距離マップを生成する。これらのマップを後処理して、各ラベルが個々の細胞に対応するインスタンスセグメンテーションマスクを作成し、細胞タイプ分類を行う。すべてのエンコーダは学習中フリーズしたままであり、事前に学習された特徴抽出能力を評価する。PanNukeとCoNIC病理組織学データセット、そして新たに導入された脳細胞構築研究用のNissl染色CytoDArk0データセットを用いて、インスタンスレベルの検出、セグメンテーション精度、細胞タイプ分類を評価する。この研究は、汎用モデルと病理組織学基盤モデルの長所と限界の比較に関する洞察を提供し、細胞に焦点を当てた病理組織学および脳細胞構築解析ワークフローにおけるモデル選択の指針を提供する。
要約(オリジナル)
Recent advancements in foundation models have transformed computer vision, driving significant performance improvements across diverse domains, including digital histopathology. However, the advantages of domain-specific histopathology foundation models over general-purpose models for specialized tasks such as cell analysis remain underexplored. This study investigates the representation learning gap between these two categories by analyzing multi-level patch embeddings applied to cell instance segmentation and classification. We implement an encoder-decoder architecture with a consistent decoder and various encoders. These include convolutional, vision transformer (ViT), and hybrid encoders pre-trained on ImageNet-22K or LVD-142M, representing general-purpose foundation models. These are compared against ViT encoders from the recently released UNI, Virchow2, and Prov-GigaPath foundation models, trained on patches extracted from hundreds of thousands of histopathology whole-slide images. The decoder integrates patch embeddings from different encoder depths via skip connections to generate semantic and distance maps. These maps are then post-processed to create instance segmentation masks where each label corresponds to an individual cell and to perform cell-type classification. All encoders remain frozen during training to assess their pre-trained feature extraction capabilities. Using the PanNuke and CoNIC histopathology datasets, and the newly introduced Nissl-stained CytoDArk0 dataset for brain cytoarchitecture studies, we evaluate instance-level detection, segmentation accuracy, and cell-type classification. This study provides insights into the comparative strengths and limitations of general-purpose vs. histopathology foundation models, offering guidance for model selection in cell-focused histopathology and brain cytoarchitecture analysis workflows.
arxiv情報
著者 | Valentina Vadori,Antonella Peruffo,Jean-Marie Graïc,Livio Finos,Enrico Grisan |
発行日 | 2025-02-04 16:47:00+00:00 |
arxivサイト | arxiv_id(pdf) |