MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis

要約

変圧器アーキテクチャに基づくコンピュータ支援診断 (CAD) モデルの開発における一般的な手法には、通常、ImageNet で事前にトレーニングされた重みからの微調整が含まれます。
しかし、大規模な事前トレーニングとスケーリング法の実践における最近の進歩により、ビジョン トランスフォーマー (ViT) ははるかに大きくなり、医療画像コミュニティにとってアクセスしにくくなりました。
さらに、現実のシナリオでは、限られたストレージスペースや時間のかかるモデル切り替えなどの問題により、複数の CAD モデルの導入が面倒になる場合があります。
これらの課題に対処するために、私たちは、複数の臨床タスクに対する単一の CAD モデルの開発を軽量な方法で可能にする新しい手法 MeLo (Medical image Low-rankadaptation) を提案します。
リソースを必要とする微調整の代わりに、低ランクの適応を採用します。
ViT モデルの重みを固定し、小さな低ランクのプラグインのみを追加することで、わずかなトレーニング可能なパラメーターのみを使用して、さまざまな画像モダリティにわたるさまざまな診断タスクで競争力のある結果を達成します。
具体的には、私たちが提案する方法は、約 0.17% のトレーニング可能なパラメーターを使用して、4 つの異なる医用画像データセットに対して完全に微調整された ViT モデルと同等のパフォーマンスを達成します。
さらに、MeLo はわずか約 0.5 MB のストレージ容量を追加するだけで、デプロイメントと推論における非常に高速なモデル切り替えを可能にします。
ソース コードと事前トレーニングされた重みは、Web サイト (https://absterzhu.github.io/melo.github.io/) で入手できます。

要約(オリジナル)

The common practice in developing computer-aided diagnosis (CAD) models based on transformer architectures usually involves fine-tuning from ImageNet pre-trained weights. However, with recent advances in large-scale pre-training and the practice of scaling laws, Vision Transformers (ViT) have become much larger and less accessible to medical imaging communities. Additionally, in real-world scenarios, the deployments of multiple CAD models can be troublesome due to problems such as limited storage space and time-consuming model switching. To address these challenges, we propose a new method MeLo (Medical image Low-rank adaptation), which enables the development of a single CAD model for multiple clinical tasks in a lightweight manner. It adopts low-rank adaptation instead of resource-demanding fine-tuning. By fixing the weight of ViT models and only adding small low-rank plug-ins, we achieve competitive results on various diagnosis tasks across different imaging modalities using only a few trainable parameters. Specifically, our proposed method achieves comparable performance to fully fine-tuned ViT models on four distinct medical imaging datasets using about 0.17% trainable parameters. Moreover, MeLo adds only about 0.5MB of storage space and allows for extremely fast model switching in deployment and inference. Our source code and pre-trained weights are available on our website (https://absterzhu.github.io/melo.github.io/).

arxiv情報

著者 Yitao Zhu,Zhenrong Shen,Zihao Zhao,Sheng Wang,Xin Wang,Xiangyu Zhao,Dinggang Shen,Qian Wang
発行日 2023-11-14 15:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク