A Federated Learning-Friendly Approach for Parameter-Efficient Fine-Tuning of SAM in 3D Segmentation

要約

基礎モデルを医用画像解析に適応させるには、事前トレーニングに使用される自然 (ソース) データと医療 (ターゲット) データの間の極端な分布の変化のため、かなりの量のデータに基づいて基礎モデルを微調整する必要があります。
ただし、このような微調整のためにタスク固有の医療データを中央の場所で収集すると、多くのプライバシー上の懸念が生じます。
フェデレーテッド ラーニング (FL) はプライベートな分散データをトレーニングするための効果的な手段を提供しますが、大規模な基盤モデルをフェデレーションする際の通信コストがすぐに重大なボトルネックとなり、ソリューションのスケーラビリティに影響を与える可能性があります。
この研究では、パラメータ効率の良い微調整 (PEFT) と FL の長所を組み合わせることで、FL での効果的な学習を確保しながら、効率的なコミュニケーションというこの問題に対処します。
具体的には、3D 医用画像セグメンテーションにセグメント エニシング モデル (SAM) を適応させるために、フェデレーション方式でプラグ アンド プレイの低ランク アダプター (LoRA) を研究しています。
LoRA を利用してデコーダ全体を微調整する以前の研究とは異なり、パフォーマンスの微調整に対する SAM の各粒度コンポーネントの寄与を批判的に分析します。
したがって、同等の精度を実現しながら通信コストの点で非常に効率的なフェデレーション対象の特定のレイヤーを特定します。
私たちの実験では、小さなデータセットでの微調整は基礎となる基礎モデルの固有の機能を歪める傾向があるため、適応中に SAM モデル (デコーダーの大部分を含む) のパラメーターを元の状態に保持することが有益であることがわかりました。
Fed-KiTS では、私たちのアプローチは、完全な微調整と比較して通信コスト (約 48 倍) を削減しながら、3D セグメンテーション タスクのパフォーマンス (最大 6% のダイス スコア) を向上させます。
私たちのアプローチは SAMed と同様に機能しますが、通信と微調整されるパラメータを最大 2.8 倍削減します。
さらに、Fed-IXI および前立腺 MRI データセットの実験でアプローチを検証します。

要約(オリジナル)

Adapting foundation models for medical image analysis requires finetuning them on a considerable amount of data because of extreme distribution shifts between natural (source) data used for pretraining and medical (target) data. However, collecting task-specific medical data for such finetuning at a central location raises many privacy concerns. Although Federated learning (FL) provides an effective means for training on private decentralized data, communication costs in federating large foundation models can quickly become a significant bottleneck, impacting the solution’s scalability. In this work, we address this problem of efficient communication while ensuring effective learning in FL by combining the strengths of Parameter-Efficient Fine-tuning (PEFT) with FL. Specifically, we study plug-and-play Low-Rank Adapters (LoRA) in a federated manner to adapt the Segment Anything Model (SAM) for 3D medical image segmentation. Unlike prior works that utilize LoRA and finetune the entire decoder, we critically analyze the contribution of each granular component of SAM on finetuning performance. Thus, we identify specific layers to be federated that are very efficient in terms of communication cost while producing on-par accuracy. Our experiments show that retaining the parameters of the SAM model (including most of the decoder) in their original state during adaptation is beneficial because fine-tuning on small datasets tends to distort the inherent capabilities of the underlying foundation model. On Fed-KiTS, our approach decreases communication cost (~48x) compared to full fine-tuning while increasing performance (~6% Dice score) in 3D segmentation tasks. Our approach performs similar to SAMed while achieving ~2.8x reduction in communication and parameters to be finetuned. We further validate our approach with experiments on Fed-IXI and Prostate MRI datasets.

arxiv情報

著者 Mothilal Asokan,Joseph Geo Benjamin,Mohammad Yaqub,Karthik Nandakumar
発行日 2024-07-31 16:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク