MAS-SAM: Segment Any Marine Animal with Aggregated Features

要約

最近、Segment Anything Model (SAM) は、高品質のオブジェクト マスクを生成し、ゼロショット画像セグメンテーションを達成する際に優れたパフォーマンスを示しています。
ただし、SAM は多用途の視覚モデルとして、主に大規模な自然光画像を使用してトレーニングされます。
水中のシーンでは、光の散乱と吸収により大幅なパフォーマンスの低下が見られます。
一方、SAM のデコーダは単純であるため、オブジェクトの詳細な粒度が失われる可能性があります。
上記の問題に対処するために、我々は海洋動物セグメンテーション用の MAS-SAM という新しい特徴学習フレームワークを提案します。これには、効果的なアダプターを SAM のエンコーダーに統合し、ピラミッド型デコーダーを構築することが含まれます。
より具体的には、まず、水中シーンに効果的なアダプターを備えた新しい SAM エンコーダーを構築します。
次に、包括的なガイダンスとしてマルチスケール フィーチャを生成するハイパーマップ抽出モジュール (HEM) を導入します。
最後に、マルチスケールの特徴を集約し、最終的なセグメンテーション結果を予測するためのプログレッシブ予測デコーダー (PPD) を提案します。
フュージョン アテンション モジュール (FAM) を使用してグラフトする場合、私たちの方法では、グローバルな文脈上の手がかりから局所的な詳細な詳細まで、より豊富な海洋情報を抽出できます。
4 つの公開 MAS データセットに対する広範な実験により、MAS-SAM が他の一般的なセグメンテーション手法よりも優れた結果を取得できることが実証されました。
ソース コードは https://github.com/Drchip61/MAS-SAM で入手できます。

要約(オリジナル)

Recently, Segment Anything Model (SAM) shows exceptional performance in generating high-quality object masks and achieving zero-shot image segmentation. However, as a versatile vision model, SAM is primarily trained with large-scale natural light images. In underwater scenes, it exhibits substantial performance degradation due to the light scattering and absorption. Meanwhile, the simplicity of the SAM’s decoder might lead to the loss of fine-grained object details. To address the above issues, we propose a novel feature learning framework named MAS-SAM for marine animal segmentation, which involves integrating effective adapters into the SAM’s encoder and constructing a pyramidal decoder. More specifically, we first build a new SAM’s encoder with effective adapters for underwater scenes. Then, we introduce a Hypermap Extraction Module (HEM) to generate multi-scale features for a comprehensive guidance. Finally, we propose a Progressive Prediction Decoder (PPD) to aggregate the multi-scale features and predict the final segmentation results. When grafting with the Fusion Attention Module (FAM), our method enables to extract richer marine information from global contextual cues to fine-grained local details. Extensive experiments on four public MAS datasets demonstrate that our MAS-SAM can obtain better results than other typical segmentation methods. The source code is available at https://github.com/Drchip61/MAS-SAM.

arxiv情報

著者 Tianyu Yan,Zifu Wan,Xinhao Deng,Pingping Zhang,Yang Liu,Huchuan Lu
発行日 2024-04-24 07:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク