CNN-based Local Vision Transformer for COVID-19 Diagnosis

要約

ディープラーニング技術は、医師がCOVID-19感染症を迅速かつ正確に特定するための支援技術として利用できます。近年、Vision Transformer(ViT)は、そのグローバルな受容野により、画像分類に向けて大きな可能性を示しています。しかし、CNNに特有の帰納的バイアスがないため、ViTに基づく構造は特徴の豊富さに限界があり、モデル学習が困難である。本論文では、小規模なCOVID-19データセットにおけるViTベースのアーキテクチャの性能を向上させるために、Transformer for COVID-19 (COVT)と呼ばれる新しい構造を提案する。これは、局所的な構造情報を効果的に抽出するために特徴抽出器としてCNNを使用し、グローバルな情報のためにViTの多層知覚(MLP)モジュールに平均プーリングを導入するものである。実験では、2つのCOVID-19データセットとImageNetデータセットにおいて、本手法の有効性が示された。

要約(オリジナル)

Deep learning technology can be used as an assistive technology to help doctors quickly and accurately identify COVID-19 infections. Recently, Vision Transformer (ViT) has shown great potential towards image classification due to its global receptive field. However, due to the lack of inductive biases inherent to CNNs, the ViT-based structure leads to limited feature richness and difficulty in model training. In this paper, we propose a new structure called Transformer for COVID-19 (COVT) to improve the performance of ViT-based architectures on small COVID-19 datasets. It uses CNN as a feature extractor to effectively extract local structural information, and introduces average pooling to ViT’s Multilayer Perception(MLP) module for global information. Experiments show the effectiveness of our method on the two COVID-19 datasets and the ImageNet dataset.

arxiv情報

著者 Hongyan Xu,Xiu Su,Dadong Wang
発行日 2022-07-05 13:16:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク