MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention

要約

基礎モデルの人気に伴い、パラメーターの効率的な微調整が、事前トレーニング済みモデルを活用して下流タスクを実行するための事実上のアプローチになりました。
大規模言語モデル、ビジュアル プロンプト チューニング、および同様の手法における最近の進歩からインスピレーションを得て、事前トレーニングされたビジョン基礎モデルを効率的に微調整するための追加のプロンプトを学習します。
しかし、このようなプロンプトは、クラス間の分散が大きく、クラス内の分散が小さい医療画像分類などのきめの細かい視覚分類タスクには不十分であることが観察されています。
したがって、この論文では、Segment Anything Model 2 (SAM2) の高度なセグメンテーション機能を、CLIP (対照的言語画像事前トレーニング) のビジュアル エンコーダを支援する視覚的プロンプト キューとして活用し、CLIP ビジュアル エンコーダの注意を関連領域に誘導することを提案します。
画像では。
これにより、視覚的に類似した背景の特徴に気を取られることなく、モデルが非常に識別力の高い領域に焦点を当てることができます。これは、少数ショットのきめ細かい分類設定では必須の要件です。
X線、CTスキャン、MRI画像などの多様な医療データセットで手法を評価し、提案されたアプローチ(新型コロナウイルス、肺疾患、
脳腫瘍、乳がん)データセットと、少数ショット トレーニング後の事前トレーニング済み CLIP モデルからのデータセット(66%、70%、68%、29%)。
提案されたアプローチでは、セグメンテーションを使用して得られる位置特定を通じて、分類パフォーマンスについて解釈可能な説明を取得することもできます。

要約(オリジナル)

With the popularity of foundational models, parameter efficient fine tuning has become the defacto approach to leverage pretrained models to perform downstream tasks. Taking inspiration from recent advances in large language models, Visual Prompt Tuning, and similar techniques, learn an additional prompt to efficiently finetune a pretrained vision foundational model. However, we observe that such prompting is insufficient for fine-grained visual classification tasks such as medical image classification, where there is large inter-class variance, and small intra-class variance. Hence, in this paper we propose to leverage advanced segmentation capabilities of Segment Anything Model 2 (SAM2) as a visual prompting cue to help visual encoder in the CLIP (Contrastive Language-Image Pretraining) by guiding the attention in CLIP visual encoder to relevant regions in the image. This helps the model to focus on highly discriminative regions, without getting distracted from visually similar background features, an essential requirement in a fewshot, finegrained classification setting. We evaluate our method on diverse medical datasets including X-rays, CT scans, and MRI images, and report an accuracy of (71%, 81%, 86%, 58%) from the proposed approach on (COVID, lung-disease, brain-tumor, breast-cancer) datasets against (66%, 70%, 68%, 29%) from a pretrained CLIP model after fewshot training. The proposed approach also allows to obtain interpretable explanation for the classification performance through the localization obtained using segmentation.

arxiv情報

著者 Aadya Arora,Vinay Namboodiri
発行日 2025-01-07 14:49:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク