A New Perspective to Boost Vision Transformer for Medical Image Classification

要約

Transformerは様々なコンピュータビジョンのタスクで素晴らしい成功を収めている。しかし、ほとんどの既存研究では、満足のいく性能を得るために、大規模なラベル付きデータセット(ImageNetなど)でTransformerのバックボーンを事前学習する必要があり、通常、医療画像では利用することができない。さらに、医用画像と自然画像の間のギャップにより、ImageNetで事前学習した重みを医用画像処理タスクに転送する際に、生成される改善度が著しく劣化する。本論文では,Transformerをバックボーンとして,医療画像分類に特化した自己教師付き学習法Bootstrap Own Latent of Transformer (BOLT)を提案する.我々のBOLTは自己教師付き表現学習のために、オンラインブランチとターゲットブランチという2つのネットワークから構成される。具体的には、オンラインネットワークは、同じパッチ埋め込みトークンに異なる摂動を与えたときのターゲットネットワーク表現を予測するように学習される。限られた医療データからTransformerの影響を最大限に発掘するために、補助的な難易度ランキングタスクを提案する。Transformerは、どのブランチ(すなわち、オンライン/ターゲット)がより困難な摂動を持つトークンを処理しているかを識別するように強制される。全体として、Transformerは、難易度測定と自己教師付き表現の一貫性を同時に達成するために、摂動されたトークンから変換不変の特徴を抽出するよう努める。提案するBOLTを3つの医療画像処理タスク、すなわち、皮膚病変の分類、膝の疲労骨折の等級付け、糖尿病性網膜症の等級付けにおいて評価した。その結果,ImageNetで事前に学習させた重みと最新の自己教師付き学習法と比較して,提案するBOLTが医用画像分類において優れていることが検証された.

要約(オリジナル)

Transformer has achieved impressive successes for various computer vision tasks. However, most of existing studies require to pretrain the Transformer backbone on a large-scale labeled dataset (e.g., ImageNet) for achieving satisfactory performance, which is usually unavailable for medical images. Additionally, due to the gap between medical and natural images, the improvement generated by the ImageNet pretrained weights significantly degrades while transferring the weights to medical image processing tasks. In this paper, we propose Bootstrap Own Latent of Transformer (BOLT), a self-supervised learning approach specifically for medical image classification with the Transformer backbone. Our BOLT consists of two networks, namely online and target branches, for self-supervised representation learning. Concretely, the online network is trained to predict the target network representation of the same patch embedding tokens with a different perturbation. To maximally excavate the impact of Transformer from limited medical data, we propose an auxiliary difficulty ranking task. The Transformer is enforced to identify which branch (i.e., online/target) is processing the more difficult perturbed tokens. Overall, the Transformer endeavours itself to distill the transformation-invariant features from the perturbed tokens to simultaneously achieve difficulty measurement and maintain the consistency of self-supervised representations. The proposed BOLT is evaluated on three medical image processing tasks, i.e., skin lesion classification, knee fatigue fracture grading and diabetic retinopathy grading. The experimental results validate the superiority of our BOLT for medical image classification, compared to ImageNet pretrained weights and state-of-the-art self-supervised learning approaches.

arxiv情報

著者 Yuexiang Li,Yawen Huang,Nanjun He,Kai Ma,Yefeng Zheng
発行日 2023-01-03 07:45:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク