Less is More: Selective Reduction of CT Data for Self-Supervised Pre-Training of Deep Learning Models with Contrastive Learning Improves Downstream Classification Performance

要約

対照学習を使用した深層学習モデルの自己教師あり事前トレーニングは、画像分析で広く使用されている手法です。
現在の調査結果は、医療画像に対する対照的な事前トレーニングの強力な可能性を示しています。
ただし、これらの画像の特定の特徴を組み込むには、さらなる研究が必要です。
私たちは、医用画像の類似性が医用画像領域における対照学習の成功を妨げていると仮説を立てています。
この目的を達成するために、私たちは、医療事前トレーニング データセットの冗長性を特定して削減するために、ディープ エンベディング、情報理論、ハッシュに基づくさまざまな戦略を調査します。
対照学習に対するこれらの異なる削減戦略の効果は、2 つの事前トレーニング データセットといくつかの下流分類タスクで評価されます。
私たちのすべての実験において、データセットの削減は、下流タスクのパフォーマンスの大幅な向上につながります。たとえば、AUC スコアは、COVID CT 分類グランド チャレンジでは 0.78 から 0.83 に、OrganSMNIST 分類チャレンジでは 0.97 から 0.98 に、AUC スコアは 0.73 から 0.83 に向上しました。
脳出血の分類タスク。
さらに、データセットの削減により、事前トレーニングは最大 9 倍高速になります。
結論として、提案されたアプローチはデータセットの品質の重要性を強調し、医療画像の分類下流タスクのためのコントラスト事前トレーニングを改善するための応用可能なアプローチを提供します。

要約(オリジナル)

Self-supervised pre-training of deep learning models with contrastive learning is a widely used technique in image analysis. Current findings indicate a strong potential for contrastive pre-training on medical images. However, further research is necessary to incorporate the particular characteristics of these images. We hypothesize that the similarity of medical images hinders the success of contrastive learning in the medical imaging domain. To this end, we investigate different strategies based on deep embedding, information theory, and hashing in order to identify and reduce redundancy in medical pre-training datasets. The effect of these different reduction strategies on contrastive learning is evaluated on two pre-training datasets and several downstream classification tasks. In all of our experiments, dataset reduction leads to a considerable performance gain in downstream tasks, e.g., an AUC score improvement from 0.78 to 0.83 for the COVID CT Classification Grand Challenge, 0.97 to 0.98 for the OrganSMNIST Classification Challenge and 0.73 to 0.83 for a brain hemorrhage classification task. Furthermore, pre-training is up to nine times faster due to the dataset reduction. In conclusion, the proposed approach highlights the importance of dataset quality and provides a transferable approach to improve contrastive pre-training for classification downstream tasks on medical images.

arxiv情報

著者 Daniel Wolf,Tristan Payer,Catharina Silvia Lisson,Christoph Gerhard Lisson,Meinrad Beer,Michael Götz,Timo Ropinski
発行日 2024-10-18 15:08:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク