Fine-grained Prompt Tuning: A Parameter and Memory Efficient Transfer Learning Method for High-resolution Medical Image Classification

要約

パラメーター効率の高い転移学習 (PETL) は、事前トレーニングされたモデルを下流のタスクに転送するための費用対効果の高い方法として提案されており、大規模な事前トレーニング済みモデル (LPM) 全体の更新にかかる高額なコストを回避します。
この研究では、医用画像分類のための新しい PETL 手法であるファイングレイン プロンプト チューニング (FPT) を紹介します。
FPT は、特に高解像度の入力コンテキストにおいて、他の PETL メソッドと比較してメモリ消費量を大幅に削減します。
これを達成するために、まず LPM の重みを凍結し、学習可能な軽量サイド ネットワークを構築します。
フローズン LPM は高解像度画像を入力として取り込み、きめ細かい特徴を抽出しますが、サイド ネットワークにはメモリ使用量を削減するために低解像度画像が供給されます。
サイド ネットワークが事前トレーニングされた知識にアクセスできるようにするために、融合モジュールを介して LPM からの情報を要約するきめ細かいプロンプトを導入します。
トレーニング コストとメモリ要件をさらに削減するために、重要なトークンの選択とプリロード技術が採用されています。
私たちは、さまざまなサイズ、モダリティ、複雑さを持つ 4 つの医療データセットで FPT を評価します。
実験結果は、FPT が、512 x 512 入力解像度のエンコーダー ViT-B モデルの学習可能なパラメーターの 1.8% とメモリ コストの 13% のみを使用しながら、LPM 全体の微調整に匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

Parameter-efficient transfer learning (PETL) is proposed as a cost-effective way to transfer pre-trained models to downstream tasks, avoiding the high cost of updating entire large-scale pre-trained models (LPMs). In this work, we present Fine-grained Prompt Tuning (FPT), a novel PETL method for medical image classification. FPT significantly reduces memory consumption compared to other PETL methods, especially in high-resolution input contexts. To achieve this, we first freeze the weights of the LPM and construct a learnable lightweight side network. The frozen LPM takes high-resolution images as input to extract fine-grained features, while the side network is fed low-resolution images to reduce memory usage. To allow the side network to access pre-trained knowledge, we introduce fine-grained prompts that summarize information from the LPM through a fusion module. Important tokens selection and preloading techniques are employed to further reduce training cost and memory requirements. We evaluate FPT on four medical datasets with varying sizes, modalities, and complexities. Experimental results demonstrate that FPT achieves comparable performance to fine-tuning the entire LPM while using only 1.8% of the learnable parameters and 13% of the memory costs of an encoder ViT-B model with a 512 x 512 input resolution.

arxiv情報

著者 Yijin Huang,Pujin Cheng,Roger Tam,Xiaoying Tang
発行日 2024-06-25 16:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク