Metadata-enhanced contrastive learning from retinal optical coherence tomography images

要約

ディープラーニングには、医療画像における疾患のスクリーニング、モニタリング、および等級付けを自動化する可能性があります。
対照学習による事前トレーニングにより、モデルは自然画像データセットから堅牢で一般化可能な特徴を抽出できるようになり、ラベル効率の良い下流画像分析が容易になります。
ただし、従来の対照的な手法を医療データセットに直接適用すると、ドメイン固有の問題が 2 つ発生します。
第一に、効果的な対比学習にとって重要であることが示されているいくつかの画像変換は、自然画像から医用画像領域に変換されません。
第 2 に、従来の方法で行われた仮定、つまり任意の 2 つの画像は似ていないという仮定は、同じ解剖学的構造と疾患を描写する医療データセットにおいて体系的に誤解を招くものです。
これは、同じ患者コホートを繰り返し画像化して疾患の進行を経時的に監視する縦断画像データセットではさらに悪化します。
この論文では、従来の対照的なフレームワークを新しいメタデータ強化戦略で拡張することで、これらの問題に取り組みます。
私たちのアプローチは、広く利用可能な患者メタデータを使用して、画像間のコントラスト関係の真のセットを近似します。
この目的のために、私たちは患者の身元、目の位置 (つまり、左または右) および時系列情報の記録を採用します。
7,912 人の加齢黄斑変性症 (AMD) 患者の 170,427 枚の網膜 OCT 画像を含む 2 つの大規模な縦断データセットを使用した実験で、メタデータを使用して疾患進行の時間的ダイナミクスを事前トレーニングに組み込むことの有用性を評価しました。
当社のメタデータ強化アプローチは、AMD に関連する 6 つの画像レベルの下流タスクのうち 5 つにおいて、標準的なコントラスト法と網膜画像基盤モデルの両方を上回ります。
そのモジュール性により、私たちの方法は迅速かつコスト効率よくテストして、利用可能なメタデータを対照的な事前トレーニングに含めることの潜在的な利点を確立できます。

要約(オリジナル)

Deep learning has potential to automate screening, monitoring and grading of disease in medical images. Pretraining with contrastive learning enables models to extract robust and generalisable features from natural image datasets, facilitating label-efficient downstream image analysis. However, the direct application of conventional contrastive methods to medical datasets introduces two domain-specific issues. Firstly, several image transformations which have been shown to be crucial for effective contrastive learning do not translate from the natural image to the medical image domain. Secondly, the assumption made by conventional methods, that any two images are dissimilar, is systematically misleading in medical datasets depicting the same anatomy and disease. This is exacerbated in longitudinal image datasets that repeatedly image the same patient cohort to monitor their disease progression over time. In this paper we tackle these issues by extending conventional contrastive frameworks with a novel metadata-enhanced strategy. Our approach employs widely available patient metadata to approximate the true set of inter-image contrastive relationships. To this end we employ records for patient identity, eye position (i.e. left or right) and time series information. In experiments using two large longitudinal datasets containing 170,427 retinal OCT images of 7,912 patients with age-related macular degeneration (AMD), we evaluate the utility of using metadata to incorporate the temporal dynamics of disease progression into pretraining. Our metadata-enhanced approach outperforms both standard contrastive methods and a retinal image foundation model in five out of six image-level downstream tasks related to AMD. Due to its modularity, our method can be quickly and cost-effectively tested to establish the potential benefits of including available metadata in contrastive pretraining.

arxiv情報

著者 Robbie Holland,Oliver Leingang,Hrvoje Bogunović,Sophie Riedl,Lars Fritsche,Toby Prevost,Hendrik P. N. Scholl,Ursula Schmidt-Erfurth,Sobha Sivaprasad,Andrew J. Lotery,Daniel Rueckert,Martin J. Menten
発行日 2024-07-26 15:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク