要約
深層学習の分野は、さまざまなタスクに簡単に適応できる一般的な基礎モデルの使用に向けて収束しつつあります。
このパラダイムシフトは自然言語処理の分野では一般的な慣行となっていますが、コンピュータービジョンの進歩は遅れています。
この論文では、さまざまな最先端の基礎モデルの医用画像分類タスクへの移行可能性を調査することで、この問題に対処しようと試みています。
具体的には、確立された 4 つの医療画像データセットにわたる 5 つの基礎モデル、つまり SAM、SEEM、DINOv2、BLIP、OpenCLIP のパフォーマンスを評価します。
これらのモデルの可能性を最大限に活用するために、さまざまなトレーニング設定を検討します。
私たちの研究では、さまざまな結果が示されています。
DINOv2 は、ImageNet 事前トレーニングの標準的な手法よりも常に優れたパフォーマンスを発揮します。
しかし、他の基礎モデルは、この確立されたベースラインを一貫して上回ることができず、医療画像分類タスクへの移行可能性に限界があることを示しています。
要約(オリジナル)
The deep learning field is converging towards the use of general foundation models that can be easily adapted for diverse tasks. While this paradigm shift has become common practice within the field of natural language processing, progress has been slower in computer vision. In this paper we attempt to address this issue by investigating the transferability of various state-of-the-art foundation models to medical image classification tasks. Specifically, we evaluate the performance of five foundation models, namely SAM, SEEM, DINOv2, BLIP, and OpenCLIP across four well-established medical imaging datasets. We explore different training settings to fully harness the potential of these models. Our study shows mixed results. DINOv2 consistently outperforms the standard practice of ImageNet pretraining. However, other foundation models failed to consistently beat this established baseline indicating limitations in their transferability to medical image classification tasks.
arxiv情報
著者 | Joana Palés Huix,Adithya Raju Ganeshan,Johan Fredin Haslum,Magnus Söderberg,Christos Matsoukas,Kevin Smith |
発行日 | 2023-11-14 12:21:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google