要約
最近の自己教師付き対比学習法は、正対間の距離を最小化することを目的とするシャム構造を大いに利用している。これらの手法は通常、入力画像にランダムなデータ補強を適用し、同じ画像の補強されたビューが類似し、正のペアになることを期待する。しかし、ランダムなデータ補強は、画像の意味情報を見落とし、コントラスト学習における補強されたビューの品質を低下させる可能性がある。この問題は、医療画像においてより困難となる。なぜなら、病気に関連する異常は微小であり、現在のランダムオーグメントのスキームでは、破損しやすい(例えば、切り取られる)ためである。本研究では、まず、広く利用されているX線画像において、対比的な事前学習で普及している従来のオーグメントが、下流の診断や分類タスクの性能に影響を与える可能性があることを実証する。そして、診断における放射線技師の視線から学習し、放射線技師の視覚的注意からガイダンスを受けて医療画像のコントラストビューを生成する、新しいオーグメンテーション手法(FocusContrast)を提案する。具体的には、放射線科医の視線移動を追跡し、X線画像を診断するために読むときの視覚的注意をモデル化する。学習されたモデルは、新しい入力画像が与えられたときの放射線技師の視覚的注意を予測し、さらに、病気に関連する異常をほとんど無視しない注意を喚起する拡張を導くことができます。FocusContrastは、プラグアンドプレイでフレームワークを問わないモジュールとして、膝のX線データセットにおいて、SimCLR、MoCo、BYOLといった最先端のコントラスト学習法の分類精度を4.0~7.0%向上させることができました。
要約(オリジナル)
Recent self-supervised contrastive learning methods greatly benefit from the Siamese structure that aims to minimizing distances between positive pairs. These methods usually apply random data augmentation to input images, expecting the augmented views of the same images to be similar and positively paired. However, random augmentation may overlook image semantic information and degrade the quality of augmented views in contrastive learning. This issue becomes more challenging in medical images since the abnormalities related to diseases can be tiny, and are easy to be corrupted (e.g., being cropped out) in the current scheme of random augmentation. In this work, we first demonstrate that, for widely-used X-ray images, the conventional augmentation prevalent in contrastive pre-training can affect the performance of the downstream diagnosis or classification tasks. Then, we propose a novel augmentation method, i.e., FocusContrast, to learn from radiologists’ gaze in diagnosis and generate contrastive views for medical images with guidance from radiologists’ visual attention. Specifically, we track the gaze movement of radiologists and model their visual attention when reading to diagnose X-ray images. The learned model can predict visual attention of the radiologists given a new input image, and further guide the attention-aware augmentation that hardly neglects the disease-related abnormalities. As a plug-and-play and framework-agnostic module, FocusContrast consistently improves state-of-the-art contrastive learning methods of SimCLR, MoCo, and BYOL by 4.0~7.0% in classification accuracy on a knee X-ray dataset.
arxiv情報
著者 | Sheng Wang,Zixu Zhuang,Xi Ouyang,Lichi Zhang,Zheren Li,Chong Ma,Tianming Liu,Dinggang Shen,Qian Wang |
発行日 | 2023-05-15 17:34:49+00:00 |
arxivサイト | arxiv_id(pdf) |