Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning

要約

自己教師あり表現学習は、より良い表現を学習するために患者-スライド-パッチ階層を活用する数多くのアプローチにより、組織病理学画像解析に非常に有望です。
この論文では、ドメイン固有の自然言語情報とそのような階層的な視覚表現の組み合わせが、医用画像タスクのリッチ表現学習にどのようなメリットをもたらすかを検討します。
病理組織画像に表示される特徴の自動言語記述生成に基づいて、組織病理画像用の新しい言語連動型自己教師あり学習フレームワークである階層型言語連動型自己教師あり学習フレームワーク (HLSS) を紹介します。
私たちは、言語モダリティ情報を視覚的表現に注入するために、複数の階層での対照的な目的と詳細な言語記述に基づいたテキストの配置を検討します。
私たちの結果として得られたモデルは、OpenSRH データセットと TCGA データセットという 2 つの医療画像ベンチマークで最先端のパフォーマンスを達成しました。
また、私たちのフレームワークは、言語に合わせた表現空間により、より優れた解釈性を提供します。
コードは https://github.com/Hasindri/HLSS で入手できます。

要約(オリジナル)

Self-supervised representation learning has been highly promising for histopathology image analysis with numerous approaches leveraging their patient-slide-patch hierarchy to learn better representations. In this paper, we explore how the combination of domain specific natural language information with such hierarchical visual representations can benefit rich representation learning for medical image tasks. Building on automated language description generation for features visible in histopathology images, we present a novel language-tied self-supervised learning framework, Hierarchical Language-tied Self-Supervision (HLSS) for histopathology images. We explore contrastive objectives and granular language description based text alignment at multiple hierarchies to inject language modality information into the visual representations. Our resulting model achieves state-of-the-art performance on two medical imaging benchmarks, OpenSRH and TCGA datasets. Our framework also provides better interpretability with our language aligned representation space. Code is available at https://github.com/Hasindri/HLSS.

arxiv情報

著者 Hasindri Watawana,Kanchana Ranasinghe,Tariq Mahmood,Muzammal Naseer,Salman Khan,Fahad Shahbaz Khan
発行日 2024-03-21 17:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク