Pretrained ViTs Yield Versatile Representations For Medical Images

要約

畳み込みニューラル ネットワーク (CNN) は、自動医用画像診断への事実上のアプローチとして 10 年間君臨し、分類、検出、およびセグメンテーションのタスクにおける最先端の技術を推進してきました。
ここ数年、ビジョン トランスフォーマー (ViT) が CNN に代わる競合製品として登場し、自然画像領域で優れたレベルのパフォーマンスを実現すると同時に、医療画像処理に有益であることが証明される可能性のあるいくつかの興味深い特性を備えています。
この研究では、医療画像分類のためのトランスベースのモデルの利点と欠点を調査します。
私たちは、いくつかの標準的な 2D 医用画像ベンチマーク データセットとタスクに対して一連の実験を実施します。
私たちの調査結果では、CNN はゼロからトレーニングするとパフォーマンスが向上しますが、既製のビジョン トランスフォーマーは、教師あり設定と自己教師あり設定の両方で ImageNet で事前トレーニングすると CNN と同等のパフォーマンスを発揮し、CNN の実行可能な代替手段として機能することがわかりました。

要約(オリジナル)

Convolutional Neural Networks (CNNs) have reigned for a decade as the de facto approach to automated medical image diagnosis, pushing the state-of-the-art in classification, detection and segmentation tasks. Over the last years, vision transformers (ViTs) have appeared as a competitive alternative to CNNs, yielding impressive levels of performance in the natural image domain, while possessing several interesting properties that could prove beneficial for medical imaging tasks. In this work, we explore the benefits and drawbacks of transformer-based models for medical image classification. We conduct a series of experiments on several standard 2D medical image benchmark datasets and tasks. Our findings show that, while CNNs perform better if trained from scratch, off-the-shelf vision transformers can perform on par with CNNs when pretrained on ImageNet, both in a supervised and self-supervised setting, rendering them as a viable alternative to CNNs.

arxiv情報

著者 Christos Matsoukas,Johan Fredin Haslum,Moein Sorkhei,Magnus Söderberg,Kevin Smith
発行日 2024-11-15 15:31:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク