要約
セグメントAnything Model(SAM)などの基礎モデルは、医療画像セグメンテーションで牽引力を獲得しており、複数の下流タスクをサポートしています。
ただし、そのようなモデルは本質的に監督されており、専門家が提供する大規模な注釈付きデータセットまたはプロンプトに依存しています。
このような制限を緩和するための積極的な学習などの従来の技術は、範囲が制限されており、継続的な人間の関与とラベルの洗練または報酬の真理を確立するための複雑なドメイン知識を必要とします。
これらの課題に対処するために、完全に監視されていないファッションで生成された注釈効率の高いプロンプトを利用する拡張セグメントのモデル(SAM)フレームワークを提案し、対照的な言語イメージの前提と視覚的質問の回答を通じて本質的なセマンティック、場所、形状情報をキャプチャします。
直接選好最適化手法を採用して、人間の注釈プロセスをシミュレートする仮想アノテーターによって提供される単純な評価またはランキングでモデルが高忠実度セグメンテーションを生成できるようにする最適なポリシーを設計します。
肺のセグメンテーション、乳房腫瘍のセグメンテーション、X線、超音波、腹部CTなどのさまざまなモダリティにわたる臓器のセグメンテーションなどのタスクでのフレームワークの最先端のパフォーマンスは、低解決データシナリオの有効性を正当化します。
要約(オリジナル)
Foundational models such as the Segment Anything Model (SAM) are gaining traction in medical imaging segmentation, supporting multiple downstream tasks. However, such models are supervised in nature, still relying on large annotated datasets or prompts supplied by experts. Conventional techniques such as active learning to alleviate such limitations are limited in scope and still necessitate continuous human involvement and complex domain knowledge for label refinement or establishing reward ground truth. To address these challenges, we propose an enhanced Segment Anything Model (SAM) framework that utilizes annotation-efficient prompts generated in a fully unsupervised fashion, while still capturing essential semantic, location, and shape information through contrastive language-image pretraining and visual question answering. We adopt the direct preference optimization technique to design an optimal policy that enables the model to generate high-fidelity segmentations with simple ratings or rankings provided by a virtual annotator simulating the human annotation process. State-of-the-art performance of our framework in tasks such as lung segmentation, breast tumor segmentation, and organ segmentation across various modalities, including X-ray, ultrasound, and abdominal CT, justifies its effectiveness in low-annotation data scenarios.
arxiv情報
著者 | Aishik Konwer,Zhijian Yang,Erhan Bas,Cao Xiao,Prateek Prasanna,Parminder Bhatia,Taha Kass-Hout |
発行日 | 2025-03-06 17:28:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google