要約
近年、画像セグメンテーションのためにさまざまな大規模な基礎モデルが提案されています。
モデルは、一般的なコンピューター ビジョン タスクに対応する大量のデータでトレーニングされることがよくあります。
したがって、これらのモデルは医療データに対して適切に機能しません。
文献では、医用画像セグメンテーションのためのそのような基礎モデルのパラメータ効率の高い微調整を実行するいくつかの試みがなされている。
ただし、これらのアプローチは、モデルのすべてのパラメーターが適応に利用できることを前提としています。
ただし、多くの場合、これらのモデルは API またはブラックボックスとしてリリースされ、モデルのパラメーターやデータへのアクセスはまったくないか、制限されています。
さらに、微調整方法には大量のコンピューティングも必要ですが、ダウンストリーム タスクでは利用できない可能性があります。
同時に、プライバシー上の理由から、微調整のために医療データをサードパーティのエージェントと共有することはできません。
これらの課題に取り組むために、私たちは、BAPS と呼ばれるプロンプト医療画像セグメンテーションのためのブラックボックス適応技術を開拓しました。
BAPS には 2 つのコンポーネントがあります。(i) 画像とプロンプトを指定して視覚的なプロンプトを生成する画像プロンプト デコーダー (IP デコーダー) モジュール、および (ii) SPSA-GC と呼ばれるゼロ次最適化 (ZOO) メソッド。
基礎モデルを介した逆伝播を必要とせずに IP デコーダを更新します。
したがって、私たちの方法では基礎モデルの重みや勾配に関する知識は必要ありません。
私たちは 4 つの異なるモダリティで BAPS をテストし、私たちの方法が元のモデルのパフォーマンスを約 4% 改善できることを示しました。
要約(オリジナル)
In recent years, various large foundation models have been proposed for image segmentation. There models are often trained on large amounts of data corresponding to general computer vision tasks. Hence, these models do not perform well on medical data. There have been some attempts in the literature to perform parameter-efficient finetuning of such foundation models for medical image segmentation. However, these approaches assume that all the parameters of the model are available for adaptation. But, in many cases, these models are released as APIs or blackboxes, with no or limited access to the model parameters and data. In addition, finetuning methods also require a significant amount of compute, which may not be available for the downstream task. At the same time, medical data can’t be shared with third-party agents for finetuning due to privacy reasons. To tackle these challenges, we pioneer a blackbox adaptation technique for prompted medical image segmentation, called BAPS. BAPS has two components – (i) An Image-Prompt decoder (IP decoder) module that generates visual prompts given an image and a prompt, and (ii) A Zero Order Optimization (ZOO) Method, called SPSA-GC that is used to update the IP decoder without the need for backpropagating through the foundation model. Thus, our method does not require any knowledge about the foundation model’s weights or gradients. We test BAPS on four different modalities and show that our method can improve the original model’s performance by around 4%.
arxiv情報
著者 | Jay N. Paranjape,Shameema Sikder,S. Swaroop Vedula,Vishal M. Patel |
発行日 | 2024-05-17 17:02:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google