SAM Fails to Segment Anything? — SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and More




– 大規模モデルであるファンデーションモデルの出現により、AI研究には重大な進展がもたらされた。
– SAMは画像セグメンテーションタスクに特化したモデルであるが、他のファンデーションモデルと同様に、SAMは一部のセグメンテーションタスク(影の検出、かくれんぼオブジェクトの検出など)において失敗することがある。
– SAMを微調整する代わりに、我々はドメイン固有の情報や視覚的なプロンプトを使用して、シンプルで効果的なアダプタを使用することで、セグメンテーションネットワークにドメイン固有の情報や視覚的なプロンプトを組み込むことができる「SAM-Adapter」を提案する。
– 大規模モデルが学習した一般的な知識とタスク固有の知識を統合することで、SAM-Adapterは困難なタスクにおけるSAMの性能を大幅に向上させることができる。
– SAM-Adapterは、カモフラージュされたオブジェクトの検出、影検出などのタスクにおいて、タスク固有のネットワークモデルを上回る性能を発揮し、ポリプセグメンテーション(医療画像セグメンテーション)でもより良い結果を達成した。
– これにより、SAMを医療画像処理、農業、リモートセンシングなどのさまざまな分野で活用する機会が開かれると考えられる。


The emergence of large models, also known as foundation models, has brought significant advancements to AI research. One such model is Segment Anything (SAM), which is designed for image segmentation tasks. However, as with other foundation models, our experimental findings suggest that SAM may fail or perform poorly in certain segmentation tasks, such as shadow detection and camouflaged object detection (concealed object detection). This study first paves the way for applying the large pre-trained image segmentation model SAM to these downstream tasks, even in situations where SAM performs poorly. Rather than fine-tuning the SAM network, we propose \textbf{SAM-Adapter}, which incorporates domain-specific information or visual prompts into the segmentation network by using simple yet effective adapters. By integrating task-specific knowledge with general knowledge learnt by the large model, SAM-Adapter can significantly elevate the performance of SAM in challenging tasks as shown in extensive experiments. We can even outperform task-specific network models and achieve state-of-the-art performance in the task we tested: camouflaged object detection, shadow detection. We also tested polyp segmentation (medical image segmentation) and achieves better results. We believe our work opens up opportunities for utilizing SAM in downstream tasks, with potential applications in various fields, including medical image processing, agriculture, remote sensing, and more.


著者 Tianrun Chen,Lanyun Zhu,Chaotao Ding,Runlong Cao,Yan Wang,Zejian Li,Lingyun Sun,Papa Mao,Ying Zang
発行日 2023-05-02 17:06:51+00:00
arxivサイト arxiv_id(pdf)

