Attention De-sparsification Matters: Inducing Diversity in Digital Pathology Representation Learning

要約

我々は、病理組織イメージングのための多様性を誘導する表現学習技術である DiRL を提案します。
対比的アプローチや非対比的アプローチなどの自己教師あり学習技術は、限られた病理医の監督下でも、デジタル化された組織サンプルの豊富で効果的な表現を学習できることが示されています。
バニラの SSL 事前トレーニング済みモデルの注意分布の分析により、洞察力に富んだ観察結果が明らかになりました。つまり、注意がまばらである、つまり、モデルは注意の大部分を画像内のいくつかの顕著なパターンに集中させる傾向があります。
これらの顕著なパターン自体が関心の対象であるため、自然画像では注意の分散が有益である可能性がありますが、これはデジタル病理学では最適ではない可能性があります。
これは、自然画像とは異なり、デジタルパソロジースキャンはオブジェクト中心ではなく、空間的に混合されたさまざまな生物学的コンポーネントの複雑な表現型であるためです。
これらの複雑な画像に対する注意の分散が不十分だと、重大な情報が失われる可能性があります。
これに対処するために、細胞セグメンテーションを利用して複数の組織病理学固有の表現を高密度に抽出し、ビュー間で複数の対応する表現を照合するように設計された SSL 用の事前ガイド付き高密度プレテキスト タスクを提案します。
これにより、モデルはさまざまなコンポーネントをより密接かつ均等に扱うことを学習し、コンテキストに富んだ表現をキャプチャするための注意の適切な分散を引き起こします。
がんの種類全体にわたる複数のタスクに関する定量的および定性的分析を通じて、私たちの方法の有効性を実証し、注意がよりグローバルに分散していることを観察しました。

要約(オリジナル)

We propose DiRL, a Diversity-inducing Representation Learning technique for histopathology imaging. Self-supervised learning techniques, such as contrastive and non-contrastive approaches, have been shown to learn rich and effective representations of digitized tissue samples with limited pathologist supervision. Our analysis of vanilla SSL-pretrained models’ attention distribution reveals an insightful observation: sparsity in attention, i.e, models tends to localize most of their attention to some prominent patterns in the image. Although attention sparsity can be beneficial in natural images due to these prominent patterns being the object of interest itself, this can be sub-optimal in digital pathology; this is because, unlike natural images, digital pathology scans are not object-centric, but rather a complex phenotype of various spatially intermixed biological components. Inadequate diversification of attention in these complex images could result in crucial information loss. To address this, we leverage cell segmentation to densely extract multiple histopathology-specific representations, and then propose a prior-guided dense pretext task for SSL, designed to match the multiple corresponding representations between the views. Through this, the model learns to attend to various components more closely and evenly, thus inducing adequate diversification in attention for capturing context rich representations. Through quantitative and qualitative analysis on multiple tasks across cancer types, we demonstrate the efficacy of our method and observe that the attention is more globally distributed.

arxiv情報

著者 Saarthak Kapse,Srijan Das,Jingwei Zhang,Rajarsi R. Gupta,Joel Saltz,Dimitris Samaras,Prateek Prasanna
発行日 2023-09-12 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク