SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation

要約

画像のセグメンテーションは視覚の理解において重要な役割を果たします。
最近、新たなビジョン基盤モデルがさまざまなタスクで優れたパフォーマンスを継続的に達成しています。
このような成功を受けて、この論文では、Segment Anything Model 2 (SAM2) が U 字型セグメンテーション モデルの強力なエンコーダーになり得ることを証明します。
我々は、汎用性の高い画像セグメンテーションのための、SAM2-UNet と呼ばれるシンプルだが効果的なフレームワークを提案します。
具体的には、SAM2-UNet はエンコーダとして SAM2 の Hiera バックボーンを採用し、デコーダは古典的な U 字型デザインを使用します。
さらに、アダプターがエンコーダーに挿入されているため、パラメーターを効率的に微調整できます。
カモフラージュされた物体の検出、顕著な物体の検出、海洋動物のセグメンテーション、鏡の検出、ポリープのセグメンテーションなどのさまざまな下流タスクに関する予備実験により、当社の SAM2-UNet が既存の特殊な最先端の手法を簡単に打ち負かすことができることが実証されました。
口笛を吹く。
プロジェクト ページ: \url{https://github.com/WZH0120/SAM2-UNet}。

要約(オリジナル)

Image segmentation plays an important role in vision understanding. Recently, the emerging vision foundation models continuously achieved superior performance on various tasks. Following such success, in this paper, we prove that the Segment Anything Model 2 (SAM2) can be a strong encoder for U-shaped segmentation models. We propose a simple but effective framework, termed SAM2-UNet, for versatile image segmentation. Specifically, SAM2-UNet adopts the Hiera backbone of SAM2 as the encoder, while the decoder uses the classic U-shaped design. Additionally, adapters are inserted into the encoder to allow parameter-efficient fine-tuning. Preliminary experiments on various downstream tasks, such as camouflaged object detection, salient object detection, marine animal segmentation, mirror detection, and polyp segmentation, demonstrate that our SAM2-UNet can simply beat existing specialized state-of-the-art methods without bells and whistles. Project page: \url{https://github.com/WZH0120/SAM2-UNet}.

arxiv情報

著者 Xinyu Xiong,Zihuang Wu,Shuangyi Tan,Wenxue Li,Feilong Tang,Ying Chen,Siying Li,Jie Ma,Guanbin Li
発行日 2024-08-16 17:55:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク