要約
大規模な事前トレーニング済みモデルの成功により、下流のタスクで大幅な改善を達成するための標準的な方法として微調整が確立されました。
ただし、事前トレーニングされたモデルのパラメーター セット全体を微調整するにはコストがかかります。
パラメータ効率の高い転移学習 (PETL) は、事前トレーニングされたモデルを下流のタスクに適応させるための費用対効果の高い代替手段として最近登場しました。
その利点にもかかわらず、トレーニング メモリの消費量がパラメータの使用量ほど効果的に削減されないため、モデル サイズと入力解像度の増加は PETL にとって課題となります。
このホワイトペーパーでは、高解像度の医用画像分類用に設計された PETL 手法である Fine-graned Prompt Tuning plus (FPT+) を紹介します。これは、他の PETL 手法と比較してメモリ消費量を大幅に削減します。
FPT+ は、軽量サイド ネットワークをトレーニングし、きめ細かいプロンプトと融合モジュールを通じて大規模な事前トレーニング済みモデル (LPM) からの事前トレーニング済みの知識にアクセスすることによって転移学習を実行します。
具体的には、LPM を凍結し、学習可能な軽量サイド ネットワークを構築します。
フローズン LPM は高解像度画像を処理してきめ細かい特徴を抽出し、サイド ネットワークは対応するダウンサンプリングされた低解像度画像を使用してメモリ使用量を最小限に抑えます。
サイドネットワークが事前にトレーニングされた知識を活用できるようにするために、LPM の中間アクティベーションを通じて情報を要約するために連携する、きめ細かいプロンプトと融合モジュールを提案します。
私たちは、さまざまなサイズ、モダリティ、複雑さの 8 つの医療画像データセットで FPT+ を評価します。
実験結果は、FPT+ が他の PETL 手法より優れていることを示しており、ViT-B モデル全体の微調整に必要な学習可能なパラメーターの 1.03% とメモリの 3.18% のみを使用します。
私たちのコードは https://github.com/YijinHuang/FPT で入手できます。
要約(オリジナル)
The success of large-scale pre-trained models has established fine-tuning as a standard method for achieving significant improvements in downstream tasks. However, fine-tuning the entire parameter set of a pre-trained model is costly. Parameter-efficient transfer learning (PETL) has recently emerged as a cost-effective alternative for adapting pre-trained models to downstream tasks. Despite its advantages, the increasing model size and input resolution present challenges for PETL, as the training memory consumption is not reduced as effectively as the parameter usage. In this paper, we introduce Fine-grained Prompt Tuning plus (FPT+), a PETL method designed for high-resolution medical image classification, which significantly reduces memory consumption compared to other PETL methods. FPT+ performs transfer learning by training a lightweight side network and accessing pre-trained knowledge from a large pre-trained model (LPM) through fine-grained prompts and fusion modules. Specifically, we freeze the LPM and construct a learnable lightweight side network. The frozen LPM processes high-resolution images to extract fine-grained features, while the side network employs the corresponding down-sampled low-resolution images to minimize the memory usage. To enable the side network to leverage pre-trained knowledge, we propose fine-grained prompts and fusion modules, which collaborate to summarize information through the LPM’s intermediate activations. We evaluate FPT+ on eight medical image datasets of varying sizes, modalities, and complexities. Experimental results demonstrate that FPT+ outperforms other PETL methods, using only 1.03% of the learnable parameters and 3.18% of the memory required for fine-tuning an entire ViT-B model. Our code is available at https://github.com/YijinHuang/FPT.
arxiv情報
著者 | Yijin Huang,Pujin Cheng,Roger Tam,Xiaoying Tang |
発行日 | 2024-08-05 12:33:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google